Правила применения симуляции Монте-Карло p-значений для критерия хи-квадрат

Я хотел бы понять использование моделирования Монте-Карло в chisq.test()функции в R.

У меня есть качественная переменная, которая имеет 128 уровней / классов. Мой размер выборки составляет 26 (я не смог выбрать больше «отдельных лиц»). Поэтому очевидно, что у меня будет несколько уровней с 0 «индивидуумами». Но дело в том, что у меня есть только очень небольшое количество классов, представленных из 127 возможных. Поскольку я слышал, что для применения критерия хи-квадрат у нас должно быть не менее 5 человек на каждом уровне (я не до конца понимаю причину этого), я подумал, что мне нужно было использовать simulate.p.valueопцию моделирования Монте-Карло для оценки распределения и вычислить значение р. Без симуляции Монте-Карло R дает мне значение p < 1e-16. С симуляцией Монте-Карло это дает мне значение p при 4e-5.

Я попытался вычислить p-значение с вектором из 26 единиц и 101 нулей, и с помощью симуляции Монте-Карло я получил p-значение в 1.

Можно ли утверждать, что, даже если размер моей выборки невелик по сравнению с количеством возможных классов, наблюдаемое распределение таково, что маловероятно, чтобы в реальной популяции все возможные классы существовали с одинаковой вероятностью (1/127) ?

r chi-squared monte-carlo

— jtextori
источник

Если ваши данные действительно свидетельствуют о том, что вы наблюдали 26 различных классов из выборки из 26, то у вас практически нет доказательств против гипотезы о том, что все 127 классов имеют равную вероятность. Это можно оценить с помощью расчета многочленного распределения.

— whuber

« Поскольку я слышал, что для применения критерия хи-квадрат у нас должно быть не менее 5 человек на каждом уровне (я не совсем понимаю причину этого) » - не совсем. Первоначальный совет заключался в том, что ожидаемое , а не фактическое число должно быть не менее 5. Цель этого правила (уже давно устаревшего) состояла в том, чтобы убедиться, что распределение хи-квадрат является разумным приближением к дискретному распределению тестовая статистика. В течение последних четырех десятилетий или около того совет "за этим правилом слишком строг".

— Glen_b

При поиске кажется, что цель симуляции Монте-Карло состоит в том, чтобы создать эталонное распределение, основанное на случайно сгенерированных выборках, которые будут иметь тот же размер, что и тестируемая выборка, чтобы вычислить p-значения, когда условия теста не выполняются.

Это объясняется в Hope A. J, Королевском стате общества, серия B (1968), которую можно найти на JSTOR .

Вот соответствующая цитата из бумаги Надежды:

Процедуры проверки значимости по методу Монте-Карло состоят из сравнения наблюдаемых данных со случайными образцами, полученными в соответствии с проверяемой гипотезой. ... Предпочтительно использовать известный тест хорошей эффективности вместо процедуры теста Монте-Карло, предполагая, что альтернативная статистическая гипотеза может быть полностью определена. Тем не менее, не всегда возможно использовать такой тест, потому что необходимые условия для применения теста могут быть не выполнены, или базовое распределение может быть неизвестно, или может быть трудно выбрать подходящий критерий теста.

— jtextori
источник