Каковы некоторые альтернативы критерию хи-квадрат для категориальных переменных с таблицами больше 2 x 2 и ячейками с числом меньше 5, если я не хочу объединять классы?
Каковы некоторые альтернативы критерию хи-квадрат для категориальных переменных с таблицами больше 2 x 2 и ячейками с числом меньше 5, если я не хочу объединять классы?
Ответы:
Здесь есть некоторые распространенные недоразумения. Тест хи-квадрат идеально подходит для таблиц, размер которых превышает . Для того чтобы фактическое распределение статистики теста хи-квадрат приблизилось к распределению хи-квадрат, традиционная рекомендация состоит в том, чтобы все ячейки имели ожидаемые значения . Здесь необходимо отметить две вещи: ≥ 5
Неважно, каковы наблюдаемые числа клеток - они вполне могут быть без проблем - важны только ожидаемые числа .
Известно, что это традиционное правило слишком консервативно. Может быть хорошо иметь ячеек с ожидаемым количеством если нет ожидаемого числа . Видеть: < 5 < 1
Если ожидаемые значения не соответствуют этому более точному критерию, есть несколько альтернативных вариантов:
Лучше всего, вероятно, имитировать распределение выборки статистики теста или использовать тест перестановки. В R, например, вы можете просто установить chisq.test(..., simulate.p.value=TRUE)
. Другое программное обеспечение также должно сделать это возможным.
Вы можете использовать альтернативный тест, такой как точный тест Фишера. Хотя точный тест Фишера часто рекомендуется в этой ситуации, стоит отметить, что он делает разные предположения и может не подходить. А именно, точный тест Фишера предполагает, что количество строк и столбцов было задано заранее, и может изменяться только расположение комбинаций столбцов х строк (см .: Учитывая мощь компьютеров в наши дни, есть ли повод для проведения теста хи-квадрат а не точный тест Фишера? ). Если вам не нравится это предположение, имитация хи-квадрат будет лучшим вариантом.