Быстрый ответ
Причина в том, что, предполагая, что данные Xi∼N(μ,σ2) , и определяя
X¯S2==∑NXiN∑N(X¯−Xi)2N−1
при формировании доверительных интервалов, распределение выборки, связанное с выборочной дисперсией (
S2, помните, случайная величина!), Является распределением хи-квадрат (
S2(N−1)/σ2∼χ2n−1 ), так же как распределение выборки, связанное со средним значением выборки, является стандартным нормальным распределением (
(X¯−μ)n−−√/σ∼Z(0,1) ), когда вы знаете дисперсию, и с t-студентом, когда вы не знаете (
(X¯−μ)n−−√/S∼Tn−1 ).
Длинный ответ
Прежде всего, мы докажем, что S2( N- 1 ) / σ2 следует распределению хи-квадрат сN- 1 степенями свободы. После этого мы увидим, как это доказательство полезно при получении доверительных интервалов для дисперсии, и как появляется распределение хи-квадрат (и почему оно так полезно!). Давайте начнем.
Доказательство
Для этого, возможно, вы должны привыкнуть к распределению хи-квадрат в этой статье Википедии . Это распределение имеет только один параметр: степени свободы, , и, случается, имеет функцию генерации момента (MGF), определяемую как
m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 .
Если мы покажем, что распределение S 2 ( N - 1 ) / σ 2 имеет функцию, порождающую моменты, как эта, но с ν =ν
мχ2ν( т ) = ( 1 - 2 т )- ν/ 2,
S2( N- 1 ) / σ2 , то мы показали, что
S 2 ( N - 1 ) / σ 2 следует распределению хи-квадрат с
N - 1 степенями свободы. Чтобы показать это, обратите внимание на два факта:
ν= N- 1S2( N- 1 ) / σ2N- 1
Если мы определим,
гдеZi∼N(0,
Y= ∑ ( Xя- Х¯)2σ2= ∑ Z2я,
, т. е. для стандартных нормальных случайных величин, производящая момент функция Y задается как
m Y ( t )Zя∼ N( 0 , 1 )Y
MGF дляZ2определяется как
m Z 2 ( t )мY( т )знак равнознак равнознак равноE [ eт Y]Е [ eт Z21] × E [ eTZ22] × . , , E [ eTZ2N]мZ2я( т ) × мZ22( Т ) × . , , мZ2N( т ) .
Z2
где использовали PDF стандартного нормального,ф(г)мZ2( т )знак равнознак равно∫∞- ∞е( з) опыт( т з2)dz(1−2t)−1/2,
и, следовательно,
mY(t)=(1-2t) - N /f(z)=e−z2/2/2π−−√
чегоследует, что Y следует распределению хи-квадрат с N степенями свободы.mY(t)=(1−2t)−N/2,
YN
Если и Y 2 независимы и каждый из них распределен как распределение хи-квадрат, но с ν 1 и ν 2 степенями свободы, то W = Y 1 + Y 2Y1Y2ν1ν2W=Y1+Y2ν1+ν2W
N-1
(N- 1 )S2= - n (X¯- μ ) + ∑ (Xя- μ)2,
σ2( N- 1 ) С2σ2+ ( X¯- μ )2σ2/ N= ∑ ( Xя-μ )2σ2,
NS2( N- 1 ) / σ2N- 1
Расчет доверительного интервала для дисперсии.
L1L2
P(L1≤σ2≤L2)=1−α.
S2(N−1)L1S2(N−1)≤σ2S2(N−1)≤L2S2(N−1).
S2(N−1)/σ2N−1L1S2(N−1)≤σ2S2(N−1)σ2S2(N−1)≤L2S2(N−1)⇒⇒S2(N−1)σ2≤S2(N−1)L1,S2(N−1)L2≤S2(N−1)σ2,
P(S2(N−1)L2≤S2(N−1)σ2≤S2(N−1)L1)=1−α.
S2(N−1)/σ2∼χ2(N−1)∫N−1S2(N−1)L2pχ2(x)dx∫S2(N−1)L1N−1pχ2(x)dx==(1−α)/2 ,(1−α)/2
(we integrate up to
N−1 because the expected value of a chi-squared random variable with
N−1 degrees of freedom is
N−1) or, equivalently,
∫S2(N−1)L20pχ2(x)dx=α/2,∫∞S2(N−1)L1pχ2(x)dx=α/2.
Calling
χ2α/2=S2(N−1)L2 and
χ21−α/2=S2(N−1)L1, where the values
χ2α/2 and
χ21−α/2 can be found in chi-square tables (in computers mainly!) and solving for
L1 and
L2,
L1L2==S2(N−1)χ21−α/2,S2(N−1)χ2α/2.
Hence, your confidence interval for the variance is
C.I.=(S2(N−1)χ21−α/2,S2(N−1)χ2α/2).