Предположим, что у меня есть три популяции с четырьмя взаимоисключающими характеристиками. Я беру случайные выборки из каждой популяции и строю кросс-таблицу или таблицу частот для характеристик, которые я измеряю. Правильно ли я сказал, что:
Если я хотел проверить, существует ли какая-либо связь между популяциями и характеристиками (например, имеет ли одна популяция более высокую частоту одной из характеристик), я должен выполнить тест хи-квадрат и посмотреть, является ли результат значительным.
Если критерий хи-квадрат является значимым, это только показывает мне, что существует некоторая связь между популяциями и характеристиками, но не то, как они связаны.
Кроме того, не все характеристики должны быть связаны с населением. Например, если разные популяции имеют существенно различающиеся распределения характеристик A и B, но не C и D, тогда критерий хи-квадрат может все же вернуться как существенный.
Если бы я хотел измерить, влияет ли популяция на конкретную характеристику, я мог бы выполнить тест на равные пропорции (я видел это как z-тест, или как
prop.test()
вR
) только для этой характеристики.
Другими словами, уместно ли использовать prop.test()
для более точного определения характера отношений между двумя наборами категорий, когда критерий хи-квадрат говорит о существенной взаимосвязи?