| Икс¯- 100 |
Фишер считал, что значение р можно интерпретировать как непрерывную меру доказательств против нулевой гипотезы . Не существует определенного фиксированного значения, при котором результаты становятся «значительными». Я обычно пытаюсь донести это до людей, чтобы указать, что для всех намерений и целей p = .049 и p = .051 составляют идентичное количество доказательств против нулевой гипотезы (см. Здесь ответ Хенрика ) ,
С другой стороны, Нейман и Пирсон решили, что вы можете использовать значение p как часть формализованного процесса принятия решений . В конце вашего исследования вы должны либо отклонить нулевую гипотезу, либо не принять отрицательную гипотезу. Кроме того, нулевая гипотеза может быть верной или не верной. Таким образом, существует четыре теоретических возможности (хотя в любой конкретной ситуации их всего две): вы можете принять правильное решение (не отклонить истинную - или отвергнуть ложную - нулевую гипотезу), или вы можете сделать тип I или ошибка типа II (отклоняя истинное нулевое значение или не отклоняя ложную нулевую гипотезу соответственно). (Обратите внимание, что значение p не совпадает с частотой ошибок типа I, о которой я расскажу здесь.) Р-значение позволяет процессу принятия решения о том, следует ли отклонить нулевую гипотезу, чтобы она была формализована. В рамках Неймана-Пирсона процесс будет работать следующим образом: существует нулевая гипотеза, что люди будут верить по умолчанию при отсутствии достаточных доказательств обратного, и альтернативная гипотеза, которая, по вашему мнению, может быть верной. Есть некоторые долгосрочные ошибки, с которыми вы будете готовы жить (обратите внимание, что нет причин, по которым они должны составлять 5% и 20%). Учитывая все это, вы разрабатываете свое исследование таким образом, чтобы различать эти две гипотезы, в то же время сохраняя, самое большее, эти уровни ошибок, проводя анализ мощности и проводя соответствующее исследование. (Как правило, это означает наличие достаточных данных.) После завершения вашего исследования вы сравниваете свое значение p с αи отвергнуть нулевую гипотезу, если ; если это не так, вы не сможете отвергнуть нулевую гипотезу. В любом случае, ваше обучение завершено, и вы приняли решение. р < а
Подходы Фишера и Неймана-Пирсона не совпадают . Основное утверждение концепции Неймана-Пирсона заключается в том, что в конце вашего исследования вы должны принять решение и уйти. Предположительно, исследователь однажды обратился к Фишеру с «незначительными» результатами, спросив его, что он должен делать, и Фишер сказал: «Иди и получи больше данных».
Лично я нахожу элегантную логику подхода Неймана-Пирсона очень привлекательной. Но я не думаю, что это всегда уместно. На мой взгляд, по крайней мере два условия должны быть выполнены, прежде чем следует рассмотреть структуру Неймана-Пирсона:
- Должна быть какая-то конкретная альтернативная гипотеза ( величина эффекта ), которая вас почему-то волнует. (Мне все равно, каков размер эффекта, какова ваша причина, обоснована ли она или согласована и т. Д., Только то, что она у вас есть).
- Должны быть некоторые основания подозревать, что эффект будет «значительным», если альтернативная гипотеза верна. (На практике это обычно будет означать, что вы провели анализ мощности и у вас достаточно данных.)
Когда эти условия не выполняются, значение p все еще можно интерпретировать в соответствии с идеями Фишера. Более того, мне кажется вероятным, что большую часть времени эти условия не выполняются. Вот несколько простых примеров, в которых запускаются тесты, но вышеуказанные условия не выполняются:
- универсальный ANOVA для модели множественной регрессии (можно выяснить, как все предполагаемые параметры с ненулевым наклоном объединяются, чтобы создать нецентральный параметр для F-распределения , но он не является дистанционно интуитивным, и я сомневаюсь ни у кого Является ли)
- W
- значение критерия однородности дисперсии (например, критерий Левена ; те же комментарии, что и выше)
- любые другие тесты для проверки предположений и т. д.
- t-тесты ковариат, кроме объясняющей переменной, представляющей основной интерес в исследовании
- начальные / поисковые исследования (например, пилотные исследования)