Как статистика Чи-квадрат Пирсона приближается к распределению Чи-квадрат

10

Таким образом, если статистика Пиарсона Chi Squared дана для таблицы , то ее форма: $1 \times N$

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i}$

Тогда это приближается к , распределению хи-квадрат с степенями свободы, поскольку размер выборки становится больше. $\chi_{n-1}^2$ $n-1$ $N$

Я не понимаю, как работает это асимптотическое приближение. Я чувствую, что в знаменателях следует заменить на . Так как это даст вам , для . Но, конечно, у этого есть степеней свободы, а не , так что явно происходит что-то еще. $E_i$ $\frac{s_i^2}{n_i}$ $\chi_n^2 = \sum_{i=1}^nZ_i^2$ $Z_i\sim n(0,1)$ $n$ $n-1$

chi-squared asymptotics

— Вос
источник

Хотя это не отвечает на ваш вопрос , оно может пролить свет на это.

— whuber

11

Я собираюсь мотивировать это интуитивно и указать, как это происходит для особого случая двух групп, предполагая, что вы счастливы принять нормальное приближение к биному.

Надеюсь, этого будет достаточно, чтобы вы смогли понять, почему это работает так, как работает.

Вы говорите о добротности по критерию хи-квадрат. Допустим, есть групп (у вас это , но есть причина, по которой я предпочитаю называть это ). $k$ $n$ $k$

В модели, применяемой для этой ситуации, счетчики , являются полиномиальными . $O_i$ $i=1,2,...,k$

Пусть . Подсчет обусловлен суммой (за исключением некоторых довольно редких ситуаций); и есть некоторый заранее заданный набор вероятностей для каждой категории, , которые в сумме равны . $N=\sum_{i=1}^k O_i$ $N$ $p_i, i=1, 2, \ldots,k$ $1$

Как и в случае с биномом, существует асимптотическая нормальная аппроксимация для полинома - действительно, если вы учитываете только число в данной ячейке («в этой категории» или нет), тогда оно будет биномиальным. Как и в случае с биномом, дисперсии отсчетов (а также их ковариации в полиноме) являются функциями и ; Вы не оцениваете дисперсию отдельно. $N$ $p$

То есть, если ожидаемые значения являются достаточно большими, вектор значений является приблизительно нормальным со средним значением . Однако, поскольку отсчеты обусловлены , распределение является вырожденным (оно существует в гиперплоскости размерности , поскольку указание отсчетов фиксирует оставшееся). Матрица дисперсии-ковариации имеет диагональные элементы и недиагональные элементы , и она имеет ранг из-за вырождения. $E_i=Np_i$ $N$ $k-1$ $k-1$ $Np_i(1-p_i)$ $-Np_ip_j$ $k-1$

В результате для отдельной ячейки вы можете написать . Тем не менее, термины являются зависимыми (отрицательно коррелированными), поэтому, если вы квадраты этих него не будет (как если бы они были независимыми стандартизированными переменными). Вместо этого мы могли бы потенциально построить набор независимых переменных из исходного которые являются независимыми и все еще приблизительно нормальными (асимптотически нормальными). Если бы мы суммировали их (стандартизированные) квадраты, мы получили бы . Есть способы построить такой набор $\text{Var}(O_i)=Np_i(1-p_i)$ $z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}}$ $z_i$ $\chi^2_k$ $k-1$ $k$ $\chi^2_{k-1}$ $k-1$ переменные явно, но, к счастью, есть очень аккуратный ярлык, который позволяет избежать значительных усилий и дает тот же результат (то же значение статистики), как если бы мы пошли на неприятности.

Для простоты рассмотрим добротность соответствия двум категориям (которая теперь является биномиальной). Вероятность нахождения в первой ячейке равна , а во второй ячейке равна . Наблюдения находятся в первой ячейке, а во второй ячейке. $p_1=p$ $p_2=1-p$ $X = O_1$ $N-X=O_2$

Наблюдаемое число первых ячеек, асимптотически . Мы можем стандартизировать его как . Тогда приблизительно равен (асимптотически ). $X$ $\text{N}(Np,Np(1-p))$ $z=\frac{X-Np}{\sqrt{Np(1-p)}}$ $z^2 = \frac{(X-Np)^2}{Np(1-p)}$ $\sim \chi^2_1$ $\sim \chi^2_1$

Заметь

$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}]$ .

Но

$\frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)}$ .

Итак, есть мы начали с - которая асимптотически будет случайной величиной . Зависимость между двумя ячейками такова, что, помощью вместо мы точно компенсируем зависимость между двумя и получаем исходную квадратную величину приблизительно нормальной случайной величины. $\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)}$ $z^2$ $\chi^2_1$ $E_i$ $E_i(1-p_i)$

О том же виде зависимости от суммы тот же подход, когда существует более двух категорий - путем суммирования вместо по всем слагаемым, вы точно компенсируете влияние зависимости и получаете сумму, эквивалентную сумме независимых нормалей. $\frac{(O_i-E_i)^2}{E_i}$ $\frac{(O_i-E_i)^2}{E_i(1-p_i)}$ $k$ $k-1$

Существует множество способов показать, что статистика имеет распределение, которое асимптотически для больших (оно рассматривается в некоторых курсах по бакалавриату по статистике и может быть найдено в ряде текстов на уровне бакалавриата), но я не хочу выводить вас слишком далеко за пределы уровня, который предлагает ваш вопрос. Действительно выводы легко найти в примечаниях в Интернете, например , существует два различных деривации в пространстве около двух страниц здесь $\chi^2_{k-1}$ $k$

— Glen_b - Восстановить Монику
источник

Спасибо, это имеет смысл. Является ли это математическим совпадением / случайностью, что так хорошо получается просто делить на ожидаемое значение? или есть интуитивное статистическое объяснение, почему это должно иметь место.

— Тот

Есть несколько объяснений, которые могут быть или не быть интуитивно понятными, в зависимости от того, что варьируется от человека к человеку. Например, если наблюдаемые значения первоначально были независимыми переменными Пуассона, то дисперсия для фактически приведет к делению на (а Пуассон также асимптотически нормален). Если вы затем задаете общее число (как указано выше), вы получаете многочлен. Независимо от того, определяете ли вы общее значение или нет (т.е. относитесь ли вы к нему как к пуассоновскому или многочленовому), оценка ML одинакова, и поэтому дисперсия этой оценки одинакова - (ctd)

z

$z$

E_{i}

$E_i$

— Glen_b -Reinstate Monica

(ctd) ... В результате вы должны разделить на и дисперсия должна получиться точно правильной. [У вас все еще есть только df.]

E_{i}

$E_i$

k - 1

$k-1$

— Glen_b

0

Одностраничная рукопись http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf, на которую ссылается пользователь @Glen_b, в конечном итоге показывает, что статистику можно переписать в виде Hotelling с ковариационным рангом = (см. уравнение 9.6). Затем мы можем ссылаться на классический результат SJ Sepanski (1994), чтобы получить его асимптотическое распределение в виде хи-квадрат с степенями свободы. $T^2$ $k-1$ $k-1$

— dohmatob
источник