Давайте рассмотрим простейший случай, чтобы попытаться обеспечить наибольшую интуицию. Пусть - выборка iid из дискретного распределения с k исходами. Пусть π 1 , … , π k - вероятности каждого конкретного результата. Нас интересует (асимптотическое) распределение хи-квадрат статистики
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πk
Здесь n π i - ожидаемое количество отсчетов i- го результата.
X2=∑i=1k(Si−nπi)2nπi.
nπii
Наводящий эвристический
Определить , так чтоX2=∑iU 2 i =‖U‖ 2 2, гдеU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
Так как это Б я л ( п , π я ) , то в силу центральной предельной теоремы ,
Т я = U ISiBin(n,πi)
Следовательно, мы также имеемчто, U я d → N ( 0 , 1 - π я ) .
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
Теперь, если был (асимптотический) независимо (что они не являются), то мы можем утверждать , что
Σ я T 2 я был асимптотический χ 2 к распределен. Но обратите внимание, что T k является детерминированной функцией ( T 1 , … , T k - 1 ), и поэтому переменные T i не могут быть независимыми.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
Следовательно, мы должны как-то учитывать ковариацию между ними. Оказывается, что «правильный» способ сделать это - использовать вместо этого , и ковариация между компонентами U также изменяет асимптотическое распределение с того, что мы могли бы считать χ 2 k, до того, что фактически является а х 2 к - 1 .UiUχ2kχ2k−1
Некоторые подробности об этом следуют.
Более строгое лечение
Нетрудно проверить, что на самом деле
Cov(Ui,Uj)=−πiπj−−−−√ for i≠j.
So, the covariance of U is
A=I−π−−√π−−√T,
where
π−−√=(π1−−√,…,πk−−√). Note that
A is symmetric and idempotent, i.e.,
A=A2=AT. So, in particular, if
Z=(Z1,…,Zk) has iid standard normal components, then
AZ∼N(0,A). (
NB The multivariate normal distribution in this case is
degenerate.)
Now, by the Multivariate Central Limit Theorem, the vector U has
an asymptotic multivariate normal distribution with mean 0 and
covariance A.
So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of
X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.
But, A is symmetric and idempotent, so (a) it has orthogonal
eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c)
the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.
Thus, ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio
statistics. Indeed, it is a Rao score statistic and can be viewed as a
Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
- G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
- E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
- D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.