Существует определенная школа мысли, согласно которой наиболее распространенный подход к статистическому тестированию представляет собой «гибрид» между двумя подходами: подход Фишера и Неймана-Пирсона; эти два подхода, как утверждается в заявлении, являются «несовместимыми», и, следовательно, получающийся в результате «гибрид» представляет собой «несвязную путаницу». Я предоставлю библиографию и некоторые цитаты ниже, но пока достаточно сказать, что об этом много написано в статье в Википедии о статистическом тестировании гипотез . Здесь, в резюме, этот момент неоднократно высказывался @Michael Lew (см. Здесь и здесь ).
Мой вопрос: почему F и NP подходы, как утверждается, несовместимы, и почему гибрид считается несогласованным? Обратите внимание, что я прочитал по крайней мере шесть антигибридных статей (см. Ниже), но все еще не понимаю проблемы или аргумента. Также обратите внимание, что я не предлагаю обсуждать, является ли F или NP лучшим подходом; Я также не предлагаю обсуждать частые и байесовские рамки. Вместо этого возникает вопрос: если признать, что и F, и NP являются правильными и значимыми подходами, что такого плохого в их гибриде?
Вот как я понимаю ситуацию. Подход Фишера состоит в том, чтобы вычислить значение и принять его в качестве доказательства против нулевой гипотезы. Чем меньше , тем убедительнее доказательства. Исследователь должен объединить эти данные с его фоновыми знаниями, решить , если это является убедительным достаточно , и действовать соответствующим образом . (Обратите внимание, что взгляды Фишера менялись с годами, но это то, к чему он, по-видимому, в конце концов и приблизился.) Напротив, подход Неймана-Пирсона заключается в том, чтобы заранее выбрать и затем проверить, является лиp α p ≤ α; если это так, назовите это значимым и отвергните нулевую гипотезу (здесь я опускаю большую часть истории NP, которая не имеет отношения к текущей дискуссии). См. Также отличный ответ @gung в разделе « Когда использовать рамки Фишера и Неймана-Пирсона»?
Гибридный подход состоит в том, чтобы вычислить значение, сообщить о нем (неявно предполагая, что чем меньше, тем лучше), а также назвать результаты значительными, если (обычно ), и несущественными в противном случае. Это должно быть бессвязным. Как может быть недопустимо делать две правильные вещи одновременно, бьет меня.p ≤ α α = 0,05
В частности, антигибридисты считают, что широко распространенная практика представления значений - , или (или даже ), где всегда выбирается самое сильное неравенство. Аргумент, по-видимому, заключается в том, что (а) достоверность доказательств не может быть должным образом оценена, поскольку точное значение не сообщается, и (б) люди склонны интерпретировать правое число в неравенстве как и рассматривать его как ошибку типа I Оцените, и это неправильно. Я не вижу здесь большой проблемы. Во-первых, указание точного значения , безусловно, является лучшей практикой, но на самом деле никому нет дела , например, если равно илир < 0,05 р < 0,01 р < 0,001 р « 0,0001 р α р р 0,02 0,03 , так что округление его в логарифмическом масштабе не так уж плохо (и, в любом случае, опускание ниже не имеет смысла, см. Как сообщать о крошечных p-значениях? ). Во-вторых, если согласие состоит в том, чтобы назвать все ниже значимым, тогда коэффициент ошибок будет и , как объясняет @gung в разделе Интерпретация значения p при проверке гипотез . Несмотря на то, что это потенциально запутанная проблема, она не кажется мне более запутанной, чем другие вопросы статистического тестирования (за пределами гибрида). Кроме того, каждый читатель может иметь в виду свою любимую при чтении гибридной статьи и, как следствие, собственную частоту ошибок.α = 0,05 р ≠ αТак в чем же дело?
Одна из причин, по которой я хочу задать этот вопрос, заключается в том, что буквально больно видеть, сколько статей в Википедии о статистическом тестировании гипотез посвящено гибриду гибрида. Вслед за Halpin & Stam он утверждает, что виноват некий Линдквист (в его учебнике даже есть большое сканирование с «ошибками», выделенными желтым цветом), и, конечно, вики-статья о самом Линдквисте начинается с того же обвинения. Но тогда, может быть, я что-то упустил.
Рекомендации
Gigerenzer, 1993, Суперэго, Эго и Ид в статистических рассуждениях - ввел термин «гибрид» и назвал его «бессвязной мешаниной»
- См. Также более поздние экспозиции Gigerenzer и др .: например, статистика Mindless (2004) и Null Ritual. Что вы всегда хотели знать о значимости тестирования, но боялись спросить (2004).
Коэн, 1994, «Земля круглая» ( ) - очень популярная статья с почти 3 тыс. Цитат, в основном о разных проблемах, но благоприятно цитирующая Гигеренцер
Гудман, 1999, На пути к доказательной медицинской статистике. 1: ошибка значения P
Хаббард и Баярри, 2003, Путаница в отношении показателей доказательств ( ) и ошибок ( ) в классическом статистическом тестированииα - одна из наиболее красноречивых статей, выступающих против «гибрида»
Halpin & Stam, 2006, « Индуктивный вывод» или «Индуктивное поведение: подходы Фишера и Неймана-Пирсона к статистическому тестированию в психологических исследованиях» (1940-1960) [бесплатно после регистрации] - обвиняет учебник Линдквиста за 1940 год за введение «гибридного» подхода
@Michael Lew, 2006, Плохая статистическая практика в фармакологии (и других основных биомедицинских дисциплинах): вы, вероятно, не знаете P - хороший обзор и обзор
Котировки
Гигеренцер: То, что стало логическим выводом в психологии, не является статистикой рыболовства. Это бессвязная путаница некоторых идей Фишера, с одной стороны, и некоторых идей Неймана и Е.С. Пирсона, с другой. Я называю эту смесь «гибридной логикой» статистического вывода.
Гудман: Подход к проверке гипотез [Неймана-Пирсона] предложил ученым выгодную сделку Фауста - казалось бы, автоматический способ ограничить число ошибочных выводов в долгосрочной перспективе, но только путем отказа от способности измерять доказательства [по-фишеровски] и оценивать правда из одного эксперимента.
Хаббард и Баярри: Классическое статистическое тестирование - это анонимный гибрид конкурирующих и часто противоречивых подходов [...]. В частности, существует широко распространенная ошибка в оценке несовместимости доказанного значения Фишера частотой ошибок типа I статистической ортодоксальности Неймана-Пирсона. [...] В качестве основного примера недоумения, вызванного [этим] смешением [...], рассмотрим широко недооцененный факт, что значение первого из них несовместимоα pс тестом гипотезы Неймана-Пирсона, в котором он стал встроенным. [...] Например, Гиббонс и Пратт ошибочно заявили: «Сообщение о значении P, точное или в пределах интервала, фактически позволяет каждому индивидууму выбирать свой собственный уровень значимости в качестве максимально допустимой вероятности ошибки типа I ".
Halpin & Stam: текст Линдквиста 1940 года был первоначальным источником гибридизации подходов Фишера и Неймана-Пирсона. [...] вместо того, чтобы придерживаться какой-либо конкретной интерпретации статистического тестирования, психологи по-прежнему сомневаются в концептуальных трудностях, связанных с противоречиями Фишера и Неймана-Пирсона, и, по сути, не знают о них.
Лью: То, что у нас есть, - это гибридный подход, который не контролирует частоту ошибок и не позволяет оценить достоверность доказательств.