Таблицы непредвиденных обстоятельств: какие тесты делать и когда?


17

Я хотел бы видеть продолжение этой дискуссии о старом чи-кв против точных тестовых дебатов Фишера, немного расширяя сферу. Существует множество тестов на взаимодействие в таблице непредвиденных обстоятельств, которых достаточно, чтобы у меня закружилась голова. Я надеюсь получить объяснение того, какой тест я должен использовать и когда, и, конечно, объяснение того, почему один тест должен быть предпочтительнее другого.

Моя текущая проблема - классический случай , но приветствуются ответы, касающиеся более высокой размерности, а также советы по реализации различных решений в R, по крайней мере, в тех случаях, когда неясно, как действовать дальше.N×м

Ниже я перечислил все тесты, которые мне известны; Надеюсь, разоблачив мои ошибки, они могут быть исправлены.

  • χ2 . Старый режим ожидания. Здесь есть три основных варианта:

    • Коррекция, встроенная в R для таблиц 2x2: «одна половина вычитается из всех отличий». Должен ли я всегда делать это?|О-Е|
    • " " Тест, не уверен, как это сделать в R.N-1χ2
    • Моделирование Монте-Карло. Это всегда лучше? Почему R не дает мне DF, когда я делаю это?
  • Точный тест Фишера .

    • Традиционно рекомендуется, когда ожидается, что любая ячейка будет <4, но, видимо, некоторые оспаривают этот совет.
    • Является ли (обычно неверным) предположение о том, что фиксированные маргиналы являются самой большой проблемой в этом тесте?
  • Точный тест Барнарда

    • Еще один точный тест, за исключением того, что я никогда не слышал об этом.
  • Пуассоновская регрессия

    • Одна вещь, которая всегда смущает меня о glms, - это как именно тесты значимости, так что помощь в этом была бы признательна. Лучше ли делать сравнение вложенных моделей? Как насчет теста Вальда для конкретного предиктора?
    • Должен ли я действительно всегда делать регрессию Пуассона? В чем практическая разница между этим и тестом?χ2

Ответы:


13

Это хороший вопрос, но большой. Я не думаю, что смогу дать полный ответ, но я выброшу пищу для размышлений.

Во-первых, под вашей верхней точкой, исправление, на которое вы ссылаетесь, называется исправлением Йейтса для непрерывности . Проблема в том, что мы вычисляем дискретную логическую статистику: (Это дискретно, потому что в таблице непредвиденных обстоятельств только конечное число экземпляров представлено имеет конечное число возможных значений , реализованных , что эта статистика может взять на себя .) Несмотря на это, он сравнивается с непрерывным опорным распределением ( а именно , то распределение с степенями свободы

χ2знак равноΣ(О-Е)2Е

χ2 (р-1)(с-1)). Это обязательно приводит к несоответствию на каком-то уровне. При особенно небольшом наборе данных, и если некоторые ячейки имеют ожидаемые значения менее 5, возможно, что значение p может быть слишком маленьким. Коррекция Йейтса подстраивается под это.

По иронии судьбы, та же самая основная проблема (дискретно-непрерывное несоответствие) может привести к слишком высоким значениям p . В частности, значение p обычно определяется как вероятность получения данных, которые являются экстремальными или болеечем наблюдаемые данные. С помощью непрерывных данных понятно, что вероятность получения какого-либо точного значения исчезающе мала, и, таким образом, у нас действительно есть вероятность того, что данные являются более экстремальными. Тем не менее, с дискретными данными существует конечная вероятность получения данных, как у вас. Только вычисление вероятности получения данных более экстремальных, чем у вас, приводит к получению слишком низких номинальных значений p (что приводит к увеличению ошибок типа I), но с учетом вероятности получения данных, таких же, как ваши, приводит к получению слишком высоких номинальных значений p (что приведет к увеличению ошибок типа II). Эти факты подсказывают идею среднего значения р . При таком подходе p-значение - это вероятность того, что данные будут более экстремальными, чем ваши плюс половина вероятность данных точно такая же как у вас.

Как вы указали, существует множество возможностей для тестирования данных таблицы сопряженности. Наиболее полное рассмотрение плюсов и минусов различных подходов здесь . Эта статья относится к таблицам 2x2, но вы все же можете многое узнать о вариантах данных таблиц непредвиденных расходов, прочитав их.

Я также думаю, что стоит серьезно рассмотреть модели. Старые тесты, такие как хи-квадрат, бывают быстрыми, легкими и понятными для многих людей, но не дают вам полного понимания ваших данных, которое вы получаете при построении подходящей модели. Если разумно рассматривать строки [столбцы] вашей таблицы непредвиденных обстоятельств как переменную ответа, а столбцы [строки] - как переменные объяснения / предиктора, подход к моделированию следует довольно легко. Например, если у вас было только две строки, вы можете построить модель логистической регрессии ; если имеется несколько столбцов, вы можете использовать эталонное кодирование ячейки (фиктивное кодирование) для построения модели типа ANOVA. С другой стороны, если у вас более двух рядов, полиномиальная логистическая регрессияможно использовать таким же образом. Если ваши строки имеют внутренний порядок, порядковая логистическая регрессия даст превосходную производительность для многочлена. Лог-линейная модель (регрессия Пуассона), вероятно, менее актуальна, если, на мой взгляд, у вас нет таблиц сопряженности с более чем двумя измерениями.

Для всестороннего рассмотрения таких тем лучше всего подать книги Агрести: либо его полномасштабное обращение (более строгое), его вступительную книгу (проще, но все же всеобъемлющее и очень хорошее), либо, возможно, также его обычную книгу .

грамм2-тестовое задание

грамм2знак равноΣОпер(ОЕ)


1
Это было отличное объяснение основной проблемы, спасибо! Кроме того, в прошлом мне говорили, что текст Агрести - отличный ресурс, поэтому я проверю его.
JVMcDonnell

4

Я постараюсь ответить на некоторые ваши вопросы как можно лучше с моей точки зрения. Во-первых, тест Фишера-Ирвина - это еще одно название точного теста Фишера. За исключением того факта, что это иногда требует больших вычислительных ресурсов, я обычно предпочитаю использовать тест Фишера. Если есть какие-либо проблемы с этим тестом, это обусловливает предельные итоги. Прелесть теста в том, что согласно нулевой гипотезе набор таблиц сопряженности с теми же предельными итогами, что и у наблюдаемой таблицы, имеет гипергеометрическое распределение. Некоторые люди утверждают, что не видят смысла ограничивать рассмотрение таблицами с одинаковыми предельными итогами.

Критерий хи-квадрат Пирсона очень часто используется для проверки связи в таблицах непредвиденных обстоятельств. Как и многие другие тесты, он приблизительный, поэтому уровень значимости не всегда точен. Кокран показал, что в небольших выборках, когда некоторые ячейки очень разрежены (например, содержат менее 5 случаев в некоторых ячейках), аппроксимация будет плохой.

Есть много других приблизительных тестов. Обычно при применении теста Фишера с использованием SAS я получаю результаты всех этих тестов, и они обычно дают почти одинаковые результаты. Но критерий Фишера всегда точен при условии предельных итогов.

Что касается регрессии Пуассона, то это модель, которая связывает категориальные переменные с итоговыми данными ячейки. Как и любая модель, это зависит от ряда предположений. Наиболее важным является то, что число клеток соответствует распределению Пуассона, что означает, что среднее число импульсов равно его дисперсии. Обычно это не так для распределения количества клеток. В случае чрезмерной дисперсии (дисперсия больше, чем среднее) отрицательная биномиальная модель может быть более подходящей.


«Тест Фишера-Ирвина - это просто другое название точного теста Фишера» ... ага, это делает этот комментарий менее смущающим для меня, спасибо!
JVMcDonnell

3
Ваш ответ на самом деле не уменьшил мое замешательство относительно того, когда делать эти вещи. Я предполагаю, что одна из вещей, о которых я надеялся услышать, это то, в какой степени проблемы с chi ^ 2 разрешимы путем моделирования или исправлений Монте-Карло и т. Д .; или степень, в которой это может быть заменено glms. Так что я просто собираюсь оставить это открытым на некоторое время, чтобы посмотреть, смогу ли я получить больше укусов. Но если никто не взвесит немного, я приму ваш ответ.
JVMcDonnell

Для Фишера и Хи-квадрат, я думаю, я сказал вам, когда вы можете использовать ци-квадрат. Если вы принимаете идею Фишера о том, что вы должны всегда указывать предельные итоги, тест Фишера всегда применим. Но если вы не примете это, то я думаю, вам придется выбрать безусловный тест. Что касается других доступных тестов, я ничего не знаю об их свойствах и, следовательно, не могу посоветовать вам, когда их использовать. Опыт формы Я видел случаи, когда это имело значение, потому что результат обычно находится в тесном согласии.
Майкл Р. Черник

Действительно ли Фишер считал, что «вы всегда должны ставить предельные суммы»? Это предположение действительно только тогда, когда предельные итоги являются фиксированными. В примере с дегустацией чая дама знает, что 5 - молоко, а 5 - молоко. Но в экспериментах чаще встречается отсутствие силы, обеспечивающей маргиналы. Рассмотрим случай, когда две монеты подбрасываются по 10 раз каждая. Когда 5 голов вращаются вокруг монеты, она не начинает давать хвосты, чтобы сохранить маргиналы. В таких случаях было задокументировано, что Фишер очень консервативен. Вот почему я заинтересован в альтернативах.
JVMcDonnell

Да. Насколько я понимаю, Фишер верил в выбор распределений ссылок, которые используют информацию из данных. Таким образом, он подумал бы, что независимо от того, как исходные итоги возникли из ваших наблюдаемых данных, их следует сравнивать только с данными, которые произошли бы при нулевой гипотезе, которая следовала за ограничениями данных, а именно данными предельных итогов. Как и с другими идеями , которые Фишер имел это было спорно.
Майкл Р. Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.