G-тест против критерия хи-квадрат Пирсона


10

Я проверяю независимость в таблице непредвиденных обстоятельствЯ не знаю, лучше ли G-тест или критерий хи-квадрат Пирсона. Размер выборки исчисляется сотнями, но есть небольшое количество клеток. Как указано на странице Википедии , приближение к распределению хи-квадрат лучше для G-теста, чем для теста Пирсона. Но я использую симуляцию Монте-Карло для вычисления значения p, так есть ли разница между этими двумя тестами?N×M


Ответы:


8

Они асимптотически одинаковы. Это просто разные способы достижения одной и той же идеи. В частности, критерий хи-квадрат Пирсона является тестом с оценкой, тогда как G-тест является тестом отношения правдоподобия. Чтобы лучше понять эти идеи, вам может помочь прочесть мой ответ здесь: почему мои p-значения отличаются между выводом логистической регрессии, тестом хи-квадрат и доверительным интервалом для ИЛИ? Чтобы ответить на ваш прямой вопрос, если вы вычисляете значение p с помощью симуляции Монте-Карло, это не должно иметь значения; Вы можете просто использовать тот, который вам удобнее. Обратите внимание, что нет проблем с низким количеством ячеек, только (потенциально) низкое ожидаемоеколичество клеток; возможно иметь низкое количество клеток и ожидаемое количество, которое просто отлично. Кроме того, ни малые фактические значения, ни низкие ожидаемые значения не имеют значения, когда p-значение определяется с помощью моделирования.

(Для чего бы это ни стоило, я бы, вероятно, использовал хи-квадрат Пирсона, потому что R имеет удобную функцию для этого, которая включает в себя опцию моделирования p-значения.)


что такое функция в R?
Llewmills


1

Посмотрите на Rfast. https://cran.r-project.org/web/packages/Rfast/index.html Соответствующие команды: g2Test_univariate (data, dc) g2Test_univariate_perm (data, dc, nperm). Вычисления выполняются очень быстро. И вообще предпочитают тест G ^ 2, так как хи-квадрат является приближением к нему.


-1

Тест хи-квадрат и G-тест обычно дают схожие результаты. Но самое главное, что вы должны выбрать один из двух тестов и придерживаться его не только для упомянутого вами теста, но и для будущих тестов в ходе вашего исследования. Это целесообразно, потому что если вы попытаетесь использовать оба теста взаимозаменяемо, очень вероятно, что вы увеличите вероятность получения ложного срабатывания.


2
По каким причинам утверждается, что вероятность ложного срабатывания увеличивается? (Если только вы не предполагали, что тест выбирается по ссылке на фактические значения - но тогда проблема заключается в ссылке на счетчики для выбора между ними, а не в идее потенциальной замены тестов как таковых)
Glen_b -Reinstate Monica

2
@Glen_b Вероятность получения ложного положительного значения, вероятно, возрастет, если мы выберем p-значение теста, которое более благоприятно для наших предположений (в случае, если мы попробуем оба теста)
little_monster
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.