Как правило, вы можете продолжать улучшать оценку любого параметра, который вы можете тестировать, используя больше данных. Прекращение сбора данных, когда тест достигает некоторой полупроизвольной степени значимости, является хорошим способом сделать неверные выводы. То, что аналитики могут неправильно понять значительный результат как признак того, что работа выполнена, является одним из многих непреднамеренных последствий структуры Неймана-Пирсона, согласно которой люди интерпретируют значения p как причину либо отклонения, либо отклонения нуля без оговорок в зависимости от на какую сторону критического порога они падают.
Без учета байесовских альтернатив частотной парадигме (надеюсь, кто-то еще это сделает), доверительные интервалы продолжают оставаться более информативными гораздо дальше, чем точка, в которой базовая нулевая гипотеза может быть отвергнута. Предполагая, что сбор большего количества данных просто сделает ваш базовый тест значимости еще более значимым (и не выявит, что ваши ранние результаты значимости были ложноположительными), вы можете счесть это бесполезным, потому что вы в любом случае отклоните нулевое значение. Однако в этом сценарии ваш доверительный интервал вокруг рассматриваемого параметра будет продолжать сокращаться, улучшая степень достоверности, с которой вы можете точно описать интересующую вас группу.
Вот очень простой пример в r - проверка нулевой гипотезы, что для моделируемой переменной:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Здесь я только что использовал t.test(rnorm(99))
, и я получил ложное срабатывание (при условии, что я по умолчанию выбрал качестве моего выбора приемлемого уровня ложных срабатываний). Если я игнорирую доверительный интервал, я могу утверждать, что моя выборка получена из популяции со средним значением, значительно отличающимся от нуля. Технически доверительный интервал также не оспаривает этого, но он предполагает, что среднее значение может быть очень близко к нулю или даже дальше от него, чем я думаю, основываясь на этой выборке. Конечно, я знаю, что на самом деле ноль здесь буквально истинен, потому что среднее значение по умолчанию по умолчанию равно нулю, но с реальными данными редко кто знает.α = 0,05rnorm
Повторное выполнение as set.seed(8);t.test(rnorm(99,1))
дает среднее значение выборки 0,91, p = 5,3E-13 и 95% доверительный интервал для . На этот раз я могу быть совершенно уверен, что нулевое значение является ложным, особенно потому, что я построил его, установив среднее значение моих смоделированных данных в 1.μ = [ 0,69 , 1,12 ]
Тем не менее, скажем, важно знать, насколько он отличается от нуля; может быть, среднее значение 0,8 будет слишком близко к нулю, чтобы разница имела значение. Я вижу, что у меня недостаточно данных, чтобы исключить вероятность того, что как из моего доверительного интервала, так и из t- теста с , что дает p = .33. Мое среднее значение выборки достаточно высоко, чтобы казаться значительно отличным от нуля в соответствии с этим порогом .8; Сбор большего количества данных может помочь укрепить мою уверенность в том, что разница, по крайней мере, настолько велика, а не просто тривиально больше нуля.μ = .8mu=.8
Поскольку я «собираю данные» с помощью моделирования, я могу быть немного нереалистичным и увеличить размер выборки на порядок. Запуск set.seed(8);t.test(rnorm(999,1),mu=.8)
показывает, что больше данных продолжают быть полезными после отклонения нулевой гипотезы в этом сценарии, потому что теперь я могу отклонить нулевое значение с моей большей выборкой. Доверительный интервал даже предполагает, что я мог бы отклонить нулевые гипотезы вплоть до если бы я решил сделать это изначально.μ = .8 μ = [ .90 , 1.02 ] μ = .89μ = 0μ = .8μ = [ 0,90 , 1,02 ]μ = .89
Я не могу пересмотреть мою нулевую гипотезу после факта, но без сбора новых данных, чтобы проверить еще более сильную гипотезу после этого результата, я могу с уверенностью сказать, что повторение моего «исследования» позволило бы мне отклонить , повторив мое «исследование». . Опять же, просто потому, что я могу легко смоделировать это, я перезапущу код следующим образом : это показывает, что моя уверенность не была неуместна.ЧАС0: μ = 0,9set.seed(9);t.test(rnorm(999,1),mu=.9)
Тестирование все более строгих нулевых гипотез или, что еще лучше, просто сосредоточение внимания на сокращении доверительных интервалов - это всего лишь один из способов продолжения. Конечно, большинство исследований, которые отвергают нулевые гипотезы, закладывают основу для других исследований, основанных на альтернативной гипотезе. Например, если бы я проверял альтернативную гипотезу о том, что корреляция больше нуля, я мог бы проверить следующее для медиаторов или модераторов в последующем исследовании ... и пока я в этом, я определенно хотел бы убедиться, Я мог бы повторить первоначальный результат.
Другой подход к рассмотрению - проверка на эквивалентность . Если вы хотите сделать вывод, что параметр находится в определенном диапазоне возможных значений, а не просто отличается от одного значения, вы можете указать диапазон значений, в котором вы хотите, чтобы параметр находился в соответствии с вашей обычной альтернативной гипотезой, и протестировать его. против другого набора нулевых гипотез, которые вместе представляют возможность того, что параметр находится вне этого диапазона. Эта последняя возможность может быть наиболее похожа на то, что вы имели в виду, когда писали:
У нас есть «некоторые доказательства» того, что альтернатива верна, но мы не можем сделать такой вывод. Если я действительно хочу сделать этот вывод окончательно ...
Вот пример, использующий данные, аналогичные приведенным выше (используется значение set.seed(8)
, rnorm(99)
такое же, как rnorm(99,1)-1
и среднее значение выборки -.09). Скажем, я хочу проверить нулевую гипотезу двух односторонних t- тестов, которые совместно устанавливают, что среднее значение выборки не находится между -.2 и .2. Это приблизительно соответствует предпосылке предыдущего примера, согласно которой я хотел проверить, . Разница в том, что я сдвинул свои данные на 1, и теперь я собираюсь выполнить два односторонних теста альтернативной гипотезы, что . Вот как это выглядит:- .2 ≤ μ ≤ .2μ = .8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
устанавливает уровень достоверности интервала равным 90%, поэтому доверительный интервал вокруг среднего значения по выборке -.09 равен , а p = .17. Однако при повторном запуске с (и тем же начальным числом) 90-процентный доверительный интервал сокращается до , что находится в пределах диапазона эквивалентности, указанного в нулевой гипотезе с p = 4.55E-07.μ = [ - .27 , .09 ]rnorm(999)
μ = [ - .09 , .01 ]
Я все еще думаю, что доверительный интервал более интересен, чем результат теста на эквивалентность. Это представляет то, что данные предполагают, что население означает более конкретно, чем альтернативная гипотеза, и предполагает, что я могу быть достаточно уверен, что оно лежит в еще меньшем интервале, чем я указал в альтернативной гипотезе. Чтобы продемонстрировать, я еще раз буду злоупотреблять своими нереалистичными способностями моделирования и «копировать», используя set.seed(7);tost(rnorm(999),epsilon=.09345092)
: конечно же, p = .002.