конспект
Вы заново открыли часть конструкции, описанной в Центральной предельной теореме для выборочных медиан , которая иллюстрирует анализ медианы выборки. (Анализ, очевидно, применяется mutatis mutandis к любому квантилю, а не только к медиане). Поэтому неудивительно, что для больших параметров Бета (соответствующих большим выборкам) нормальное распределение возникает при преобразовании, описанном в вопросе. Интересно то, насколько близко к нормальному распределение даже для небольших бета-параметров. Это заслуживает объяснения.
Я сделаю набросок анализа ниже. Чтобы держать этот пост в разумных пределах, нужно много наводить на размышления: я хочу лишь указать на ключевые идеи. Поэтому позвольте мне обобщить результаты здесь:
Когда близко к βαβ , все симметрично. Это приводит к тому, что преобразованное распределение уже выглядит нормально.
Функции вида выглядят достаточно нормальными, в первую очередь, даже для небольших значений α и β (при условии, что оба превышают 1, а их соотношение не слишком близко к 0 или 1 ).Φα−1(x)(1−Φ(x))β−1αβ101
Кажущаяся нормальность преобразованного распределения обусловлена тем, что его плотность состоит из нормальной плотности, умноженной на функцию в (2).
При увеличении и β отклонение от нормальности можно измерить в оставшихся терминах в ряд Тейлора для логарифмической плотности. Член порядка n уменьшается пропорционально ( n - 2 ) / 2 степеням α и β . Это подразумевает, что в конечном итоге для достаточно больших α и β все члены степени n = 3 или более стали относительно малыми, оставляя только квадратичное значение, которое в точности равно логарифмической плотности нормального распределения.αβn(n−2)/2αβαβn=3
В совокупности эти поведения хорошо объясняют, почему даже для малых и β неэкстремальные квантили образца iid Normal выглядят приблизительно нормально.αβ
Анализ
Поскольку может быть полезно обобщить, пусть - любая функция распределения, хотя мы имеем в виду F = Φ .FF=Φ
Функция плотности бета- переменной ( α , β ) по определению пропорциональнаg(y)(α,β)
yα−1(1−y)β−1dy.
Если быть интегралом вероятности для x и записать f для производной от F , то сразу x имеет плотность, пропорциональнуюy=F(x)xfFx
G(x;α,β)=F(x)α−1(1−F(x))β−1f(x)dx.
Поскольку это монотонное преобразование сильно унимодального распределения (бета), если является довольно странным, преобразованное распределение также будет унимодальным. Чтобы изучить, насколько близко это может быть к нормальному, давайте рассмотрим логарифм его плотности,F
logG(x;α,β)=(α−1)logF(x)+(β−1)log(1−F(x))+logf(x)+C(1)
где C - нерелевантная константа нормализации.
Разложите компоненты в ряд Тейлора, чтобы упорядочить три вокруг значения x 0 (которое будет близко к моде). Например, мы можем написать расширение журнала FlogG(x;α,β)x0logF как
logF(x)=cF0+cF1(x−x0)+cF2(x−x0)2+cF3h3
в течение некоторого с | ч | ≤ | х - х 0 | , Используйте аналогичные обозначения для log ( 1 - F ) и log f . h|h|≤|x−x0|log(1−F)logf
Линейные условия
Таким образом, линейный член в становится(1)
g1(α,β)=(α−1)cF1+(β−1)c1−F1+cf1.
Когда является режимом G (x0 это выражение равно нулю. Обратите внимание, что, поскольку коэффициенты являются непрерывными функциями от x 0 , так как α и β изменяются, мода x 0 также будет изменяться непрерывно. Более того, как только α и β становятся достаточно большими,член c f 1 становится относительно несущественным. Если мы хотим изучить предел при α → ∞ и β → ∞, для которого α : β остается в постоянной пропорции γG(;α,β)x0αβx0αβcf1α→∞β→∞ α:βγпоэтому мы можем раз и навсегда выбрать базовую точку для которойx0
γcF1+c1−F1=0.
Хороший случай, когда , где α = β во всем и F симметричен относительно 0 . В этом случае очевидно , х 0 = Р ( 0 ) = 1 / 2 .γ=1α=βF0x0=F(0)=1/2
Мы достигли метода, при котором (a) в пределе член первого порядка в ряду Тейлора обращается в нуль, а (b) в только что описанном частном случае член первого порядка всегда равен нулю.
Квадратичные условия
These are the sum
g2(α,β)=(α−1)cF2+(β−1)c1−F2+cf2.
Comparing to a Normal distribution, whose quadratic term is −(1/2)(x−x0)2/σ2, we may estimate that −1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (x−x0)n(−1/(2g2(α,β)))n/2.
Remainder term
Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,
gn(α,β)=(α−1)cFn+(β−1)c1−Fn+cfn.
After standardization, it becomes
g′n(α,β)=gn(α,β)(−2g2(α,β))n/2).
Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case when F is normal
The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x.
Here is a plot showing how the standardized fourth order term changes with small values of α>1:
The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.