На каком уровне тест математически идентичен тесту пропорций?

ФОН: Пропустите безопасно - это здесь для справки, и чтобы узаконить вопрос.

Открытие этой статьи гласит:

«Знаменитый критерий непредвиденных обстоятельств Карла Пирсона по хи-квадрату получен из другой статистики, называемой z-статистикой, основанной на нормальном распределении. Можно показать, что самые простые версии математически идентичны эквивалентным z-тестам. Тесты дают тот же результат при любых обстоятельствах. Для всех намерений и целей «хи-квадрат» можно было бы назвать «z-квадратом». Критические значения для одной степени свободы являются квадратом соответствующих критических значений z ». $\chi^2$ $\chi^2$

Это было заявлено несколько раз в резюме ( здесь , здесь , здесь и другие).

И действительно, мы можем доказать, что эквивалентно с : $\chi^2_{1\,df}$ $X^2$ $X\sim N(0,1)$

Допустим, что и и найдем плотность с помощью метода : $X \sim N(0,1)$ $Y=X^2$ $Y$ $cdf$

$p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})$ . Проблема в том, что мы не можем интегрировать в близкой форме плотность нормального распределения. Но мы можем выразить это:

F_{X} (y) = F_{X} (\sqrt{y}) - F_{X} (- \sqrt{y}) .

$F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).$ Взяв производную:

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{2 \sqrt{y}} + F_{X}^{'} (\sqrt{- y}) \frac{1}{2 \sqrt{y}} .

$f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}.$

Поскольку значения нормали $pdf$ симметричны:

$f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}$ . Приравнивая это к $pdf$ нормали (теперь $x$ в $pdf$ будет $\sqrt{y}$ подключить к часть нормального); и не забывая включить $e^{-\frac{x^2}{2}}$ $pdf$ в конце: $\frac{1}{\sqrt{y}}$

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} y^{\frac{1}{2} - 1}

$f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1}$

Сравните с pdf квадрата хи:

f_{X} (x) = \frac{1}{2^{ν / 2} Γ (\frac{ν}{2})} e^{\frac{- x}{2}} x^{\frac{ν}{2} - 1}

$f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1}$

Так как , дляdf, мы вывели именноквадрата хи. $\Gamma(1/2)=\sqrt{\pi}$ $1$ $pdf$

Кроме того, если мы будем называть функцию prop.test()в R мы вызываете такую же тест , как если мы решим на . $\chi^2$ chisq.test()

ВОПРОС:

Таким образом, я получил все эти пункты, но я все еще не знаю, как они применяются к фактической реализации этих двух тестов по двум причинам:

Z-тест не в квадрате.
Фактическая статистика тестов совершенно иная:

Значение тест-статистики для $\chi^2$ составляет:

где $\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} = N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$

= совокупная тестовая статистика Пирсона, которая асимптотически приближается краспределению . = количество наблюдений типа ; = общее количество наблюдений; = = ожидаемая (теоретическая) частота типа , утверждаемая нулевой гипотезой о том, что доля типа в популяции равна ; = количество ячеек в таблице. $\chi^2$ $\chi^2$ $O_i$ $i$ $N$ $E_i$ $N p_i$ $i$ $i$ $p_i$ $n$

С другой стороны, тестовая статистика для теста : $z$

с $\displaystyle Z = \frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p\,(1-p)(1/n_1+1/n_2)}}$ , гдеи- количество «успехов» по количеству субъектов на каждом из уровней категориальных переменных, то естьи. $\displaystyle p = \frac{x_1\,+\,x_2}{n_1\,+\,n_2}$ $x_1$ $x_2$ $n_1$ $n_2$

Эта формула, кажется, опирается на биномиальное распределение.

Эти две статистики тестов явно различаются и приводят к различным результатам для фактической статистики тестов, а также для p- значений : 5.8481для и для z-теста, где (спасибо, @ mark999 ). Р -значение для теста , в то время как для г-тест . Разница объясняется двусторонним и односторонним: (спасибо @amoeba). $\chi^2$ 2.4183 $\small 2.4183^2=5.84817$ $\chi^2$ 0.015590.0077 $\small 0.01559/2=0.007795$

Так на каком уровне мы говорим, что они одно и то же?

chi-squared proportion z-test

— Антони Пареллада
источник

Но это два одинаковых теста. Z в квадрате - это статистика хи-квадрат. Пусть у вас есть таблица частот 2х2, где столбцы - это две группы, а строки - «успех» и «сбой». Тогда так называемые ожидаемые частоты теста хи-квадрат в данном столбце - это взвешенный (на N) средний профиль столбца (группы), умноженный на N. этой группы. Таким образом, получается, что хи-квадрат тестирует отклонение профили каждой из двух групп из этого среднего профиля группы, что эквивалентно проверке различий между профилями групп, z-критерию пропорций.

— ttnphns

В примере с последней гиперссылкой

является почти квадратом статистики z-критерия, но не совсем, и значения p отличаются. Кроме того, если вы посмотрите на формулы для остальной статистики выше, действительно ли сразу же они идентичны? Или даже один квадрат другого?

χ^{2}

$\chi^2$

— Антони Пареллада

В chisq.test(), вы пытались с помощью correct=FALSE?

— mark999

Действительно, Антони. Оба теста существуют с или без Йейтса. Может быть, вы вычислили одно с другим, а другое без него?

— ttnphns

Спасибо! Вы были (как и ожидалось) правы. С отключенной коррекцией Йейтса один - это просто квадрат другого. Я соответственно отредактировал вопрос, хотя и немного быстро. Я все еще хотел бы доказать алгебраически, что обе тестовые статистики одинаковы (или один квадрат другого), и понять, почему p-значения различны.

— Антони Пареллада

Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

The usual (not Yates corrected) $\chi^2$ of this table, after you substitute proportions instead of frequencies in its formula, looks like this:

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = \frac{n_{1} (p_{1} - p)^{2} + n_{2} (p_{2} - p)^{2}}{p q} .

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]= \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

$p= \frac{n_1p_1+n_2p_2}{n_1+n_2}$ , the element of the weighted average profile of the two profiles (p1,q1) and (p2,q2), and plug it in the formula, to obtain

. . . = \frac{(p_{1} - p_{2})^{2} (n_{1}^{2} n_{2} + n_{1} n_{2}^{2})}{p q N^{2}}

$...= \frac{(p_1-p_2)^2(n_1^2n_2+n_1n_2^2)}{pqN^2}$

Divide both numerator and denominator by the $(n_1^2n_2+n_1n_2^2)$ and get

\frac{(p_{1} - p_{2})^{2}}{p q (1 / n_{1} + 1 / n_{2})} = Z^{2},

$\frac{(p_1-p_2)^2}{pq(1/n_1+1/n_2)}=Z^2,$

the squared z-statistic of the z-test of proportions for "Yes" response.

Thus, the 2x2 homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the group n) average vertical profile (i.e. the profile of the "average group") multiplied by that group's n. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.

This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.

(Showing the expansion in the first line above, By @Antoni's request):

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}] = \frac{n_1(p_1-p)^2q}{pq}+\frac{n_1(q_1-q)^2p}{pq}+\frac{n_2(p_2-p)^2q}{pq}+\frac{n_2(q_2-q)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(1-p_1-1+p)^2p+n_2(p_2-p)^2(1-p)+n_2(1-p_2-1+p)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(p-p_1)^2p+n_2(p_2-p)^2(1-p)+n_2(p-p_2)^2p}{pq} = \frac{[n_1(p_1-p)^2][(1-p)+p]+[n_2(p_2-p)^2][(1-p)+p]}{pq} = \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

— ttnphns
источник

@ttnphs This is great! Any chance you could clarify the intermediate step in the first equation (

χ^{2}

$\chi^2$ ) formula - I don't see how the

q

$q$ 's go away after the equal sign.

— Antoni Parellada

@ttnphs When I expand it I get

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = n_{1} (\frac{q (p^{2} + p (- 2 p_{1} - 2 q_{1} + p_{1}^{2}) + p (q^{2} + q_{1}^{2})}{p q}) + n_{2} (\frac{q (p^{2} + p (- 2 p_{2} - 2 q_{2}) + p_{2}^{2}) + p (q^{2} + q_{2}^{2})}{p q})

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]=n_1(\frac{q(p^2+p(-2p_1-2q_1+p_1^2)+p(q^2+q_1^2)}{pq})+n_2(\frac{q(p^2+p(-2p_2-2q_2)+p_2^2)+p(q^2+q_2^2)}{pq})$

— Antoni Parellada

@ttnphs ... Or some reference so it's less work to type the latex... And I'll promptly and happily 'accept' the answer...

— Antoni Parellada

@Antoni, expansion inserted.

— ttnphns

@ttnphns Awesome!

— Antoni Parellada