Когда использовать рамки Фишера и Неймана-Пирсона?


73

В последнее время я много читал о различиях между методом проверки гипотез Фишера и школой мысли Неймана-Пирсона.

Мой вопрос, игнорируя философские возражения на мгновение; когда мы должны использовать подход статистического моделирования Фишера, а когда следует использовать метод уровней значимости Неймана-Пирсона и так далее? Есть ли практический способ решить, какую точку зрения поддержать в той или иной конкретной практической проблеме?


Где вы читали об этом? Пожалуйста, приведите свои источники.
xmjx

8
См., Например, здесь ( jstor.org/stable/2291263 ) или здесь ( stats.org.uk/statistical-inference/Lenhard2006.pdf ).
Стейн

Ответы:


83

|Икс¯-100|

Фишер считал, что значение р можно интерпретировать как непрерывную меру доказательств против нулевой гипотезы . Не существует определенного фиксированного значения, при котором результаты становятся «значительными». Я обычно пытаюсь донести это до людей, чтобы указать, что для всех намерений и целей p = .049 и p = .051 составляют идентичное количество доказательств против нулевой гипотезы (см. Здесь ответ Хенрика ) ,

С другой стороны, Нейман и Пирсон решили, что вы можете использовать значение p как часть формализованного процесса принятия решений . В конце вашего исследования вы должны либо отклонить нулевую гипотезу, либо не принять отрицательную гипотезу. Кроме того, нулевая гипотеза может быть верной или не верной. Таким образом, существует четыре теоретических возможности (хотя в любой конкретной ситуации их всего две): вы можете принять правильное решение (не отклонить истинную - или отвергнуть ложную - нулевую гипотезу), или вы можете сделать тип I или ошибка типа II (отклоняя истинное нулевое значение или не отклоняя ложную нулевую гипотезу соответственно). (Обратите внимание, что значение p не совпадает с частотой ошибок типа I, о которой я расскажу здесь.) Р-значение позволяет процессу принятия решения о том, следует ли отклонить нулевую гипотезу, чтобы она была формализована. В рамках Неймана-Пирсона процесс будет работать следующим образом: существует нулевая гипотеза, что люди будут верить по умолчанию при отсутствии достаточных доказательств обратного, и альтернативная гипотеза, которая, по вашему мнению, может быть верной. Есть некоторые долгосрочные ошибки, с которыми вы будете готовы жить (обратите внимание, что нет причин, по которым они должны составлять 5% и 20%). Учитывая все это, вы разрабатываете свое исследование таким образом, чтобы различать эти две гипотезы, в то же время сохраняя, самое большее, эти уровни ошибок, проводя анализ мощности и проводя соответствующее исследование. (Как правило, это означает наличие достаточных данных.) После завершения вашего исследования вы сравниваете свое значение p с αи отвергнуть нулевую гипотезу, если ; если это не так, вы не сможете отвергнуть нулевую гипотезу. В любом случае, ваше обучение завершено, и вы приняли решение. п<α

Подходы Фишера и Неймана-Пирсона не совпадают . Основное утверждение концепции Неймана-Пирсона заключается в том, что в конце вашего исследования вы должны принять решение и уйти. Предположительно, исследователь однажды обратился к Фишеру с «незначительными» результатами, спросив его, что он должен делать, и Фишер сказал: «Иди и получи больше данных».


Лично я нахожу элегантную логику подхода Неймана-Пирсона очень привлекательной. Но я не думаю, что это всегда уместно. На мой взгляд, по крайней мере два условия должны быть выполнены, прежде чем следует рассмотреть структуру Неймана-Пирсона:

  1. Должна быть какая-то конкретная альтернативная гипотеза ( величина эффекта ), которая вас почему-то волнует. (Мне все равно, каков размер эффекта, какова ваша причина, обоснована ли она или согласована и т. Д., Только то, что она у вас есть).
  2. Должны быть некоторые основания подозревать, что эффект будет «значительным», если альтернативная гипотеза верна. (На практике это обычно будет означать, что вы провели анализ мощности и у вас достаточно данных.)

Когда эти условия не выполняются, значение p все еще можно интерпретировать в соответствии с идеями Фишера. Более того, мне кажется вероятным, что большую часть времени эти условия не выполняются. Вот несколько простых примеров, в которых запускаются тесты, но вышеуказанные условия не выполняются:

  • универсальный ANOVA для модели множественной регрессии (можно выяснить, как все предполагаемые параметры с ненулевым наклоном объединяются, чтобы создать нецентральный параметр для F-распределения , но он не является дистанционно интуитивным, и я сомневаюсь ни у кого Является ли)
  • W
  • значение критерия однородности дисперсии (например, критерий Левена ; те же комментарии, что и выше)
  • любые другие тесты для проверки предположений и т. д.
  • t-тесты ковариат, кроме объясняющей переменной, представляющей основной интерес в исследовании
  • начальные / поисковые исследования (например, пилотные исследования)

Хотя это старая тема, ответ очень ценится. +1
Стейн

+1 Отличный ответ! Я впечатлен вашей способностью объяснить эти концепции в такой сжатой форме.
COOLSerdash

1
Это действительно замечательный ответ, @ Gung
Патрик С. Форшер

5
AFAIK Нейман-Пирсон не использовал фишеровские значения p и, следовательно, критерий «p <альфа». То, что вы называете «Нейман-Пирсон», на самом деле является «проверкой значимости нулевой гипотезы» (гибрид Фишера и Н.П.), а не чистой теорией принятия решений Неймана-Пирсона.
Фрэнк

«если эталонное значение было истинным параметром населения». Чтобы быть точным, это «если распределение вероятностей - это то, что указано в нулевой гипотезе». Нулевая гипотеза не просто указывает суммарную статистику, такую ​​как среднее, она определяет полное распределение вероятностей. Часто семейство распределения принимается как неявное (например, нормальное распределение), и в этот момент указание параметров определяет распределение.
накопление

18

Практичность в глазах смотрящего, но;

  • Проверка значимости Фишера может быть интерпретирована как способ решить, предполагают ли данные какой-либо интересный «сигнал». Мы либо отвергаем нулевую гипотезу (которая может быть ошибкой типа I), либо ничего не говорим. Например, во многих современных приложениях «омика» эта интерпретация подходит; мы не хотим совершать слишком много ошибок типа I, мы хотим извлекать самые захватывающие сигналы, хотя мы можем пропустить некоторые.

  • Гипотеза Неймана-Пирсона имеет смысл, когда есть две непересекающиеся альтернативы (например, бозон Хиггса существует или не существует), между которыми мы решаем. Помимо риска ошибки типа I, здесь также можно сделать ошибку типа II - когда есть реальный сигнал, но мы говорим, что его нет, принимая «нулевое» решение. Аргументом NP было то, что, не делая слишком много ошибок типа I, мы хотим минимизировать риск ошибок типа II.

Часто ни одна из систем не кажется идеальной - например, вы можете просто захотеть точную оценку и соответствующую меру неопределенности. Кроме того, может не иметь значения, какую версию вы используете, потому что вы сообщаете значение p и оставляете интерпретацию теста читателю. Но чтобы выбрать один из подходов, описанных выше, определите, относятся ли ошибки типа II к вашему приложению.


5

Все дело в том, что нельзя игнорировать философские различия. Математическая процедура в статистике не просто отдельная вещь, которую вы применяете без каких-либо основополагающих гипотез, предположений, теории ... философии.

Тем не менее, если вы настаиваете на приверженности частым философиям, может быть несколько очень специфических проблем, которые действительно необходимо рассмотреть Нейману-Пирсону. Все они попадают в класс повторного тестирования, такого как контроль качества или МРТ. Предварительная настройка конкретной альфа-версии и рассмотрение всей структуры типа I, типа II и мощности становятся более важными в этих условиях.


Я не настаиваю на том, чтобы придерживаться статистики по частоте, но мне просто интересно, есть ли ситуации, когда принятие точки зрения Фишера или Неймана-Пирсона может быть естественным. Я знаю, что есть философское различие, но, возможно, есть еще и практическая сторона, которую следует рассмотреть?
Стейн

3
Ладно, в значительной степени именно то, что я сказал ... Нейман-Пирсон действительно интересовался ситуациями, когда вы проводите много-много тестов без каких-либо реальных теоретических оснований для каждого из них. Точка зрения Фишера на самом деле не решает эту проблему.
Джон

1

Мое понимание таково: р-значение - это сказать нам, во что верить (проверка теории с достаточным количеством данных), в то время как подход Неймана-Пирсона должен сказать нам, что делать (принимать наилучшие возможные решения даже при ограниченных данных). Так что мне кажется, что (маленькое) значение p более строгое, в то время как подход Неймана-Пирсона более прагматичен; Вероятно, поэтому p-значение больше используется при ответах на научные вопросы, а Нейман и Пирсон - больше при принятии статистических / практических решений.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.