Какова связь между тестом хи-квадрат и тестом равных пропорций?

Предположим, что у меня есть три популяции с четырьмя взаимоисключающими характеристиками. Я беру случайные выборки из каждой популяции и строю кросс-таблицу или таблицу частот для характеристик, которые я измеряю. Правильно ли я сказал, что:

Если я хотел проверить, существует ли какая-либо связь между популяциями и характеристиками (например, имеет ли одна популяция более высокую частоту одной из характеристик), я должен выполнить тест хи-квадрат и посмотреть, является ли результат значительным.
Если критерий хи-квадрат является значимым, это только показывает мне, что существует некоторая связь между популяциями и характеристиками, но не то, как они связаны.
Кроме того, не все характеристики должны быть связаны с населением. Например, если разные популяции имеют существенно различающиеся распределения характеристик A и B, но не C и D, тогда критерий хи-квадрат может все же вернуться как существенный.
Если бы я хотел измерить, влияет ли популяция на конкретную характеристику, я мог бы выполнить тест на равные пропорции (я видел это как z-тест, или как prop.test()в R) только для этой характеристики.

Другими словами, уместно ли использовать prop.test()для более точного определения характера отношений между двумя наборами категорий, когда критерий хи-квадрат говорит о существенной взаимосвязи?

— hgcrpd
источник

Читайте также: stats.stackexchange.com/q/173415/3277 .

— ttnphns

Ответы:

Очень короткий ответ:

Тест хи-квадрат ( chisq.test()в R) сравнивает наблюдаемые частоты в каждой категории таблицы сопряженности с ожидаемыми частотами (вычисленными как произведение предельных частот). Он используется для определения того, являются ли отклонения между наблюдаемым и ожидаемым значениями слишком большими, чтобы их можно было отнести к случайности. Выезд из независимости легко проверить путем проверки остатков (попробуйте ?mosaicplotили ?assocplot, но также посмотрите на vcdпакет). Используйте fisher.test()для точного теста (опираясь на гипергеометрическое распределение).

prop.test()Функция в R позволяет проверить , является ли пропорции сравнимы между группами или ничем не отличаются от теоретических вероятностей. Он называется -test, потому что статистика теста выглядит следующим образом: $z$

Z знак равно \frac{(е_{1} - е_{2})}{\sqrt{\hat{п} (1 - \hat{п}) (\frac{1}{N_{1}} + \frac{1}{N_{2}})}}

$z=\frac{(f_1-f_2)}{\sqrt{\hat p \left(1-\hat p \right) \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$

где , а индексы относятся к первой и второй строке вашей таблицы. В таблице двусторонних ситуаций, где $\hat p=(p_1+p_2)/(n_1+n_2)$ $(1,2)$ , это должно дать сопоставимые результаты с обычнымтестом : $H_0:\; p_1=p_2$ $\chi^2$

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889

Для анализа дискретных данных с помощью R я настоятельно рекомендую R (и S-PLUS) Руководство по сопровождению анализа данных Agresti (2002) от Laura Thompson.

— хл
источник

Есть ли общее имя для теста, который выполняет prop.test ()?

— Atticus29

«Это называется z-тест».

— Russellpierce

@chl Я немного запутался - я подумал, prop.testи chisq.testоба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.

— Антони Пареллада

@Antoni Да, именно это объяснил Кит в своем ответе.

— ХЛ

n_{1}

$n_1$

n_{2}

$n_2$

f_{1}

$f_1$

f_{2}

$f_2$

p_{1}

$p_1$

p_{2}

$p_2$

$z$ $p$

$\alpha$

Самый мощный тест на равенство пропорций называется тестом Барнарда на превосходство .

— Кит Винстейн
источник

@ gung Я немного запутался - я подумал, prop.testи chisq.testоба используют хи-квадрат, который объясняет одинаковые значения p, а также почему в этом посте для R-Bloggers у них есть своя специальная функция ad hoc.

— Антони Пареллада

Я не понимаю, что тебя смущает, @AntoniParellada. В этом ответе говорится, что они «абсолютно одинаковы», что имеет смысл, если «оба используют хи-квадрат».

— gung - Восстановить Монику

@gung в исходном ответе chl утверждает, что prop.test()... называется z-тестом в отличие от chisq.test(). Позже Кит говорит: «Критерий хи-квадрат на равенство двух пропорций - это то же самое, что и z-тест. (Именно поэтому @chl получает одинаковое значение p в обоих тестах.)»

— Антони Пареллада

Кажется, это просто неудачное выражение, @AntoniParellada. Концептуально два теста отличаются друг от друга, о чем я и говорил в моем другом ответе, который вы видели. Но математически они эквивалентны. На самом деле, я считаю, что функция R на prop.test()самом деле просто вызывает chisq.test()и печатает вывод по-разному.

— gung - Восстановить Монику

@gung Я работал над функцией, похожей на R-Bloggers, и собирался сделать пост для людей на уровне моего начинающего, в котором я процитировал бы вас по поводу нескольких ключевых концепций, которые вы написали, пробежавшись по математике для чи квадрат и Z-тест, а затем давая код R.

— Антони Пареллада