Я собираюсь мотивировать это интуитивно и указать, как это происходит для особого случая двух групп, предполагая, что вы счастливы принять нормальное приближение к биному.
Надеюсь, этого будет достаточно, чтобы вы смогли понять, почему это работает так, как работает.
Вы говорите о добротности по критерию хи-квадрат. Допустим, есть групп (у вас это , но есть причина, по которой я предпочитаю называть это ).н кКNК
В модели, применяемой для этой ситуации, счетчики , являются полиномиальными . я = 1 , 2 , . , , , кОяя = 1 , 2 , . , , , к
Пусть . Подсчет обусловлен суммой (за исключением некоторых довольно редких ситуаций); и есть некоторый заранее заданный набор вероятностей для каждой категории, , которые в сумме равны . N p i , i = 1 , 2 , … , k 1Nзнак равно ∑Кя = 1ОяNпя, я = 1 , 2 , … , к1
Как и в случае с биномом, существует асимптотическая нормальная аппроксимация для полинома - действительно, если вы учитываете только число в данной ячейке («в этой категории» или нет), тогда оно будет биномиальным. Как и в случае с биномом, дисперсии отсчетов (а также их ковариации в полиноме) являются функциями и ; Вы не оцениваете дисперсию отдельно.рNп
То есть, если ожидаемые значения являются достаточно большими, вектор значений является приблизительно нормальным со средним значением . Однако, поскольку отсчеты обусловлены , распределение является вырожденным (оно существует в гиперплоскости размерности , поскольку указание отсчетов фиксирует оставшееся). Матрица дисперсии-ковариации имеет диагональные элементы и недиагональные элементы , и она имеет ранг из-за вырождения. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ея= NпяNк - 1к - 1Nпя( 1 -ря)- NпяпJк - 1
В результате для отдельной ячейки вы можете написать . Тем не менее, термины являются зависимыми (отрицательно коррелированными), поэтому, если вы квадраты этих него не будет (как если бы они были независимыми стандартизированными переменными). Вместо этого мы могли бы потенциально построить набор независимых переменных из исходного которые являются независимыми и все еще приблизительно нормальными (асимптотически нормальными). Если бы мы суммировали их (стандартизированные) квадраты, мы получили бы . Есть способы построить такой наборz i = O i - E iВар ( Оя) = Nпя( 1 - ря) ziχ2kk-1kχ2k-1k-1Zя= Oя- EяЕя( 1 - ря)√ziχ2kk−1kχ2k−1k−1 переменные явно, но, к счастью, есть очень аккуратный ярлык, который позволяет избежать значительных усилий и дает тот же результат (то же значение статистики), как если бы мы пошли на неприятности.
Для простоты рассмотрим добротность соответствия двум категориям (которая теперь является биномиальной). Вероятность нахождения в первой ячейке равна , а во второй ячейке равна . Наблюдения находятся в первой ячейке, а во второй ячейке.p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1−pX=O1N−X=O2
Наблюдаемое число первых ячеек, асимптотически . Мы можем стандартизировать его как . Тогда приблизительно равен (асимптотически ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1−p))z=X−NpNp(1−p)√z2=(X−Np)2Np(1−p)∼χ21∼χ21
Заметь
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)] .
Но
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p) .
Итак, есть мы начали с - которая асимптотически будет случайной величиной . Зависимость между двумя ячейками такова, что, помощью вместо мы точно компенсируем зависимость между двумя и получаем исходную квадратную величину приблизительно нормальной случайной величины.∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
О том же виде зависимости от суммы тот же подход, когда существует более двух категорий - путем суммирования вместо по всем слагаемым, вы точно компенсируете влияние зависимости и получаете сумму, эквивалентную сумме независимых нормалей.(Oi−Ei)2Ei(Oi−Ei)2Ei(1−pi)kk−1
Существует множество способов показать, что статистика имеет распределение, которое асимптотически для больших (оно рассматривается в некоторых курсах по бакалавриату по статистике и может быть найдено в ряде текстов на уровне бакалавриата), но я не хочу выводить вас слишком далеко за пределы уровня, который предлагает ваш вопрос. Действительно выводы легко найти в примечаниях в Интернете, например , существует два различных деривации в пространстве около двух страниц здесьχ2k−1k