Учитывая мощь компьютеров в наши дни, есть ли причина для проведения теста хи-квадрат, а не для точного теста Фишера?

Учитывая, что в настоящее время программное обеспечение может так легко выполнять точный расчет теста Фишера , есть ли обстоятельства, когда теоретически или практически критерий хи-квадрат на самом деле предпочтительнее точного теста Фишера?

Преимущества точного теста Фишера включают в себя:

масштабирование до таблиц сопряженности больше 2х2 (т. е. любой таблицы r x c )
дает точное значение р
не нужно иметь минимальное ожидаемое количество ячеек, чтобы быть действительным

chi-squared contingency-tables fishers-exact

— pmgjones
источник

Потому что это старая добрая классика. Вскоре он станет изысканным винтажным. После этого, когда люди восстанут против компьютеров, они будут жить второй молодостью.

— ttnphns

Вы когда-нибудь пытались вычислить точную статистику теста Фишера на большой таблице? (Это занимает слишком много времени ...)

— whuber

В дополнение к хорошим комментариям и ответам, которые вы уже получили, я думаю, что лучший вопрос - «Учитывая мощь компьютеров, почему бы не проводить тесты на симуляцию / перестановку все время?».

— Питер Флом - Восстановить Монику

@whuber Я сделал (проприетарную) реализацию без (большого количества) таблиц в C ++. Он запускает тысячи значений P для чисел до 8 цифр в секундах.

— Мишель де Рюйтер

@Michel Я имел в виду общее количество ячеек в таблице. Вычисление легко для таблиц 2 x 2, но по мере увеличения таблиц вычисления становятся обременительными.

— whuber

Ответы:

Вы можете перевернуть вопрос. Так как обычный тест Пирсона почти всегда более точен, чем точный тест Фишера, и его гораздо быстрее вычислить, почему кто-то использует тест Фишера? $\chi^2$

Обратите внимание, что ошибочно то, что ожидаемые частоты ячеек должны превышать 5, чтобы Пирсона давала точные значенияТест является точным, если ожидаемые частоты ячеек превышают 1,0, если к статистике теста применяется очень простая коррекция . $\chi^2$ $P$ $\frac{N-1}{N}$

От R-help, 2009 :

Тесты Кэмпбелла, И. Чи-квадрата и Фишера-Ирвина по схеме «два на два» с рекомендациями для небольших выборок. Статистика в медицине 2007; 26 : 3661-3675. ( аннотация )

... последнее издание книги Армитиджа рекомендует, чтобы корректировки непрерывности никогда не использовались для тестов хи-квадрат таблицы сопряженности;
Э. Пирсон - модификация критерия хи-квадрат Пирсона, отличающаяся от оригинала фактором (N-1) / N;
Кохран отметил, что число 5 в «ожидаемой частоте меньше 5» было произвольным;
Результаты опубликованных исследований могут быть обобщены следующим образом , для сравнительных испытаний:
1. В тесте Йета по хи-квадрату частота ошибок типа I меньше номинальной, часто меньше половины номинальной;
2. В тесте Фишера-Ирвина частота ошибок типа I меньше номинальной;
3. В версии теста Хи-квадрата Пирсона коэффициенты ошибок типа I ближе к номинальному, чем критерий хи-квадрат Йейта и критерий Фишера-Ирвина, но в некоторых ситуациях ошибки типа I заметно превышают номинальное значение;
4. Тест хи-квадрат 'N-1' ведет себя как вариант 'N' К. Пирсона, но тенденция к превышению номинальных значений уменьшается;
5. Двусторонний критерий Фишера-Ирвин , используя правило Ирвина менее консервативны , чем метод удвоения односторонней вероятности;
6. Тест среднего Фишера-Ирвина с удвоением односторонней вероятности работает лучше, чем стандартные версии теста Фишера-Ирвина, а метод среднего Р по правилу Ирвина работает еще лучше, когда фактические ошибки типа I приближаются к номинальным уровням. «;
сильная поддержка теста «N-1» при условии, что ожидаемые частоты превышают 1;
ошибка в тесте Фишера, основанная на предпосылке Фишера о том, что предельные итоги не содержат никакой полезной информации;
демонстрация их полезной информации в очень небольших размерах выборки;
Регулировка непрерывности Yate N / 2 является большой избыточной коррекцией и неуместна;
встречные аргументы существуют для использования рандомизированных тестов в рандомизированных исследованиях;
расчеты наихудших случаев;
общая рекомендация : используйте критерий хи-квадрат 'N-1', когда все ожидаемые частоты равны, по крайней мере, 1, в противном случае используйте тест Фишера-Ирвина, используя правило Ирвина для двусторонних тестов, принимая таблицы с любого хвоста как вероятные или менее, как это наблюдается; см. письмо к редактору Антонио Андрес и ответ автора в 27: 1791-1796; 2008.

Кранс Г.Г., Шустер Дж. Насколько консервативен точный тест Фишера? Количественная оценка сравнительного биномиального испытания с двумя образцами. Статистика в медицине 2008; 27 : 3598-3611. ( аннотация )

... первая статья, которая действительно количественно оценила консервативность теста Фишера;
«Размер испытания FET был менее 0,035 для почти всех размеров выборки до 50 и не приближался к 0,05 даже для размеров выборки свыше 100».;
консервативность «точных» методов;
см. Стат в Med 28 : 173-179, 2009 для критики, которая осталась без ответа

Lydersen S, Fagerland MW, Laake P. Рекомендуемые тесты для ассоциации в таблицы. Статистика в медицине 2009; 28 : 1159-1175. ( аннотация ) $2\times 2$

... Точный критерий Фишера никогда не должен использоваться, если не применяется коррекция среднего ; $P$
значение безусловных тестов;
см. письмо в редакцию 30: 890-891; 2011

— Фрэнк Харрелл
источник

Можете ли вы предложить, как применить коррекцию (N-1) / N? Существуют ли онлайн-калькуляторы, которые включают это исправление? Есть ли простой способ вручную откорректировать результаты теста хи-квадрат, чтобы сделать эту коррекцию самостоятельно?

— DW

Одна из ссылок, которые я перечислил выше, является вашей лучшей ставкой.

— Фрэнк Харрелл

Почему вы говорите, что "почти всегда более точен, чем точный критерий Фишера" ? Я бы сказал обратное, потому что не является «точным» тестом.

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

— Стефан Лоран

Маркировка чего-либо как «точного» не делает это так. Посмотрите замечательное объяснение @suncoolsu, которое вы пропустили (вы также пропустили все объяснения выше). Тест Пирсона даже более точен, чем думал Пирсон. См., Например, citeulike.org/user/harrelfe/article/13265687 и citeulike.org/user/harrelfe/article/13263676 . «Точный» тест Фишера точен только в том смысле, что истинная ошибка типа I не превышает заявленную. Но он оказывается меньше заявленного, поэтому ошибка типа II выше, что означает меньшую мощность.

— Фрэнк Харрелл

Я знаю значение точности. Точный момент, который мне не нравится в неточных тестах, - это вероятность того, что ошибка типа I выше номинального уровня. Но вы правы, я неправильно понял ваш ответ, а другой (оба великолепны)

— Стефан Лоран,

Это большой вопрос.

Точный критерий Фишера является одним из замечательных примеров умного использования экспериментом плана Фишера , наряду с подготовкой данных (в основном на таблицах с наблюдаемыми рядами и предельными значениями) и его изобретательностью в нахождении распределений вероятности (хотя это не лучший пример , для лучшего примера см. здесь ). Использование компьютеров для вычисления «точных» p-значений определенно помогло получить точные ответы.

Однако трудно обосновать предположения о точном тесте Фишера на практике. Поскольку так называемый «точный» исходит из того факта, что в «эксперименте по дегустации чая» или в случае таблиц непредвиденных обстоятельств 2x2 итоговая сумма строки и итоговая сумма столбца, то есть предельные итоговые значения, являются фиксированными. Это предположение редко оправдывается на практике. Хорошие ссылки смотрите здесь .

Название «точный» приводит к убеждению, что значения p, приведенные в этом тесте, являются точными, что опять же в большинстве случаев, к сожалению, неверно из-за этих причин.

Если предельные значения не являются фиксированными (что происходит практически каждый раз на практике), значения p будут консервативными.
Поскольку в тесте используется дискретное распределение вероятностей (в частности, гипергеометрическое распределение), для определенных отсечений невозможно вычислить «точные нулевые вероятности», то есть значение p.

В большинстве практических случаев использование критерия отношения правдоподобия или критерия хи-квадрат не должно давать сильно отличающихся ответов (значение p) от точного критерия Фишера. Да, когда маргинальные значения установлены, точный тест Фишера - лучший выбор, но это случается редко. Следовательно, для проверки согласованности всегда рекомендуется использовать критерий хи-квадрат критерия отношения правдоподобия.

Подобные идеи применимы, когда точный критерий Фишера обобщается на любую таблицу, что в основном эквивалентно вычислению многомерной гипергеометрической вероятности. Поэтому всегда нужно пытаться вычислить х-квадрат и p-значения распределения отношения правдоподобия, в дополнение к «точным» р-значениям.

— suncoolsu
источник