Это хороший вопрос, но большой. Я не думаю, что смогу дать полный ответ, но я выброшу пищу для размышлений.
Во-первых, под вашей верхней точкой, исправление, на которое вы ссылаетесь, называется исправлением Йейтса для непрерывности . Проблема в том, что мы вычисляем дискретную логическую статистику:
(Это дискретно, потому что в таблице непредвиденных обстоятельств только конечное число экземпляров представлено имеет конечное число возможных значений , реализованных , что эта статистика может взять на себя .) Несмотря на это, он сравнивается с непрерывным опорным распределением ( а именно , то распределение с степенями свободы
χ2= ∑ ( O - E)2Е
χ2 ( r - 1 ) ( c - 1 )). Это обязательно приводит к несоответствию на каком-то уровне. При особенно небольшом наборе данных, и если некоторые ячейки имеют ожидаемые значения менее 5, возможно, что значение p может быть слишком маленьким. Коррекция Йейтса подстраивается под это.
По иронии судьбы, та же самая основная проблема (дискретно-непрерывное несоответствие) может привести к слишком высоким значениям p . В частности, значение p обычно определяется как вероятность получения данных, которые являются экстремальными или болеечем наблюдаемые данные. С помощью непрерывных данных понятно, что вероятность получения какого-либо точного значения исчезающе мала, и, таким образом, у нас действительно есть вероятность того, что данные являются более экстремальными. Тем не менее, с дискретными данными существует конечная вероятность получения данных, как у вас. Только вычисление вероятности получения данных более экстремальных, чем у вас, приводит к получению слишком низких номинальных значений p (что приводит к увеличению ошибок типа I), но с учетом вероятности получения данных, таких же, как ваши, приводит к получению слишком высоких номинальных значений p (что приведет к увеличению ошибок типа II). Эти факты подсказывают идею среднего значения р . При таком подходе p-значение - это вероятность того, что данные будут более экстремальными, чем ваши плюс половина вероятность данных точно такая же как у вас.
Как вы указали, существует множество возможностей для тестирования данных таблицы сопряженности. Наиболее полное рассмотрение плюсов и минусов различных подходов здесь . Эта статья относится к таблицам 2x2, но вы все же можете многое узнать о вариантах данных таблиц непредвиденных расходов, прочитав их.
Я также думаю, что стоит серьезно рассмотреть модели. Старые тесты, такие как хи-квадрат, бывают быстрыми, легкими и понятными для многих людей, но не дают вам полного понимания ваших данных, которое вы получаете при построении подходящей модели. Если разумно рассматривать строки [столбцы] вашей таблицы непредвиденных обстоятельств как переменную ответа, а столбцы [строки] - как переменные объяснения / предиктора, подход к моделированию следует довольно легко. Например, если у вас было только две строки, вы можете построить модель логистической регрессии ; если имеется несколько столбцов, вы можете использовать эталонное кодирование ячейки (фиктивное кодирование) для построения модели типа ANOVA. С другой стороны, если у вас более двух рядов, полиномиальная логистическая регрессияможно использовать таким же образом. Если ваши строки имеют внутренний порядок, порядковая логистическая регрессия даст превосходную производительность для многочлена. Лог-линейная модель (регрессия Пуассона), вероятно, менее актуальна, если, на мой взгляд, у вас нет таблиц сопряженности с более чем двумя измерениями.
Для всестороннего рассмотрения таких тем лучше всего подать книги Агрести: либо его полномасштабное обращение (более строгое), его вступительную книгу (проще, но все же всеобъемлющее и очень хорошее), либо, возможно, также его обычную книгу .
грамм2-тестовое задание
грамм2= ∑ O ⋅ ln ( OЕ)