Теперь, когда я отверг нулевую гипотезу, что дальше?

23

Я снова и снова отказывался или не мог отклонить нулевую гипотезу. В случае отказа от отклонения дела вы заключаете, что нет достаточных доказательств для отклонения, и вы «продолжаете» (т. Е. Либо собираете больше данных, заканчиваете эксперимент и т. Д.)

Но когда вы «делаете» отвергаете нулевую гипотезу, предоставляя некоторые доказательства альтернативной гипотезы, вы не можете «доказать», что ваша альтернативная гипотеза действительно верна.

Итак, каковы общие следующие шаги, когда вы отвергаете нулевую гипотезу? Какие инструменты / методы используются для «дальнейшего анализа проблемы», чтобы сделать выводы более убедительными? Каковы логические «последующие шаги» статистика, требующие дальнейшего анализа?

Например:

$H_0: \mu_1 = \mu_0$

$H_1: \mu_1 > \mu_0$ (скажем, мы знаем ожидаемое направление)

Как только мы отвергаем нулевую гипотезу на каком-то уровне значимости, у нас есть «некоторые доказательства» того, что альтернатива верна, но мы не можем сделать такой вывод. Если я действительно хочу сделать такой вывод окончательно (простите за двойную игру слов), что мне делать?

Я никогда не задумывался над этим вопросом во время учебы в университете, но теперь, когда я провожу довольно много проверок гипотез, я не могу не задаться вопросом, что же впереди :)

hypothesis-testing

— кандидат наук
источник

2

Возможно, интерес: почему «статистически значимо» недостаточно?

— gung - Восстановить Монику

3

Вообще говоря, ваши действия после вашего решения также должны быть выбраны перед тестированием (как еще вы можете взвесить стоимость двух видов ошибок и выбрать разумную ?). По крайней мере, вы, вероятно, перейдете к рассмотрению оценочных размеров эффекта. Нулевое значение не является допустимым (по выбранным вами критериям - если этого недостаточно для вас, что будет?), Так какие же значения вероятны вместо этого? например, в указанном вами тесте, какие значения для были бы достаточно правдоподобными, учитывая данные?

α

$\alpha$

μ_{1} - μ_{0}

$\mu_1-\mu_0$

— Glen_b

10

Как правило, вы можете продолжать улучшать оценку любого параметра, который вы можете тестировать, используя больше данных. Прекращение сбора данных, когда тест достигает некоторой полупроизвольной степени значимости, является хорошим способом сделать неверные выводы. То, что аналитики могут неправильно понять значительный результат как признак того, что работа выполнена, является одним из многих непреднамеренных последствий структуры Неймана-Пирсона, согласно которой люди интерпретируют значения p как причину либо отклонения, либо отклонения нуля без оговорок в зависимости от на какую сторону критического порога они падают.

Без учета байесовских альтернатив частотной парадигме (надеюсь, кто-то еще это сделает), доверительные интервалы продолжают оставаться более информативными гораздо дальше, чем точка, в которой базовая нулевая гипотеза может быть отвергнута. Предполагая, что сбор большего количества данных просто сделает ваш базовый тест значимости еще более значимым (и не выявит, что ваши ранние результаты значимости были ложноположительными), вы можете счесть это бесполезным, потому что вы в любом случае отклоните нулевое значение. Однако в этом сценарии ваш доверительный интервал вокруг рассматриваемого параметра будет продолжать сокращаться, улучшая степень достоверности, с которой вы можете точно описать интересующую вас группу.

Вот очень простой пример в r - проверка нулевой гипотезы, что для моделируемой переменной: $\mu=0$

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

Здесь я только что использовал t.test(rnorm(99)), и я получил ложное срабатывание (при условии, что я по умолчанию выбрал качестве моего выбора приемлемого уровня ложных срабатываний). Если я игнорирую доверительный интервал, я могу утверждать, что моя выборка получена из популяции со средним значением, значительно отличающимся от нуля. Технически доверительный интервал также не оспаривает этого, но он предполагает, что среднее значение может быть очень близко к нулю или даже дальше от него, чем я думаю, основываясь на этой выборке. Конечно, я знаю, что на самом деле ноль здесь буквально истинен, потому что среднее значение по умолчанию по умолчанию равно нулю, но с реальными данными редко кто знает. $\alpha=.05$ rnorm

Повторное выполнение as set.seed(8);t.test(rnorm(99,1))дает среднее значение выборки 0,91, p = 5,3E-13 и 95% доверительный интервал для . На этот раз я могу быть совершенно уверен, что нулевое значение является ложным, особенно потому, что я построил его, установив среднее значение моих смоделированных данных в 1. $\mu=[.69,1.12]$

Тем не менее, скажем, важно знать, насколько он отличается от нуля; может быть, среднее значение 0,8 будет слишком близко к нулю, чтобы разница имела значение. Я вижу, что у меня недостаточно данных, чтобы исключить вероятность того, что как из моего доверительного интервала, так и из t- теста с , что дает p = .33. Мое среднее значение выборки достаточно высоко, чтобы казаться значительно отличным от нуля в соответствии с этим порогом .8; Сбор большего количества данных может помочь укрепить мою уверенность в том, что разница, по крайней мере, настолько велика, а не просто тривиально больше нуля. $\mu=.8$ mu=.8

Поскольку я «собираю данные» с помощью моделирования, я могу быть немного нереалистичным и увеличить размер выборки на порядок. Запуск set.seed(8);t.test(rnorm(999,1),mu=.8)показывает, что больше данных продолжают быть полезными после отклонения нулевой гипотезы в этом сценарии, потому что теперь я могу отклонить нулевое значение с моей большей выборкой. Доверительный интервал даже предполагает, что я мог бы отклонить нулевые гипотезы вплоть до если бы я решил сделать это изначально. $\mu=0$ $\mu=.8$ $\mu=[.90,1.02]$ $\mu=.89$

Я не могу пересмотреть мою нулевую гипотезу после факта, но без сбора новых данных, чтобы проверить еще более сильную гипотезу после этого результата, я могу с уверенностью сказать, что повторение моего «исследования» позволило бы мне отклонить , повторив мое «исследование». . Опять же, просто потому, что я могу легко смоделировать это, я перезапущу код следующим образом : это показывает, что моя уверенность не была неуместна. $H_0:\mu=.9$ set.seed(9);t.test(rnorm(999,1),mu=.9)

Тестирование все более строгих нулевых гипотез или, что еще лучше, просто сосредоточение внимания на сокращении доверительных интервалов - это всего лишь один из способов продолжения. Конечно, большинство исследований, которые отвергают нулевые гипотезы, закладывают основу для других исследований, основанных на альтернативной гипотезе. Например, если бы я проверял альтернативную гипотезу о том, что корреляция больше нуля, я мог бы проверить следующее для медиаторов или модераторов в последующем исследовании ... и пока я в этом, я определенно хотел бы убедиться, Я мог бы повторить первоначальный результат.

Другой подход к рассмотрению - проверка на эквивалентность . Если вы хотите сделать вывод, что параметр находится в определенном диапазоне возможных значений, а не просто отличается от одного значения, вы можете указать диапазон значений, в котором вы хотите, чтобы параметр находился в соответствии с вашей обычной альтернативной гипотезой, и протестировать его. против другого набора нулевых гипотез, которые вместе представляют возможность того, что параметр находится вне этого диапазона. Эта последняя возможность может быть наиболее похожа на то, что вы имели в виду, когда писали:

У нас есть «некоторые доказательства» того, что альтернатива верна, но мы не можем сделать такой вывод. Если я действительно хочу сделать этот вывод окончательно ...

Вот пример, использующий данные, аналогичные приведенным выше (используется значение set.seed(8), rnorm(99)такое же, как rnorm(99,1)-1и среднее значение выборки -.09). Скажем, я хочу проверить нулевую гипотезу двух односторонних t- тестов, которые совместно устанавливают, что среднее значение выборки не находится между -.2 и .2. Это приблизительно соответствует предпосылке предыдущего примера, согласно которой я хотел проверить, . Разница в том, что я сдвинул свои данные на 1, и теперь я собираюсь выполнить два односторонних теста альтернативной гипотезы, что . Вот как это выглядит: $\mu=.8$ $-.2\le\mu\le.2$

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostустанавливает уровень достоверности интервала равным 90%, поэтому доверительный интервал вокруг среднего значения по выборке -.09 равен , а p = .17. Однако при повторном запуске с (и тем же начальным числом) 90-процентный доверительный интервал сокращается до , что находится в пределах диапазона эквивалентности, указанного в нулевой гипотезе с p = 4.55E-07. $\mu=[-.27,.09]$ rnorm(999) $\mu=[-.09,.01]$

Я все еще думаю, что доверительный интервал более интересен, чем результат теста на эквивалентность. Это представляет то, что данные предполагают, что население означает более конкретно, чем альтернативная гипотеза, и предполагает, что я могу быть достаточно уверен, что оно лежит в еще меньшем интервале, чем я указал в альтернативной гипотезе. Чтобы продемонстрировать, я еще раз буду злоупотреблять своими нереалистичными способностями моделирования и «копировать», используя set.seed(7);tost(rnorm(999),epsilon=.09345092): конечно же, p = .002.

— Ник Стаунер
источник

Просветление! Не могли бы вы показать быстрый и грязный пример последней части, где вы говорите о проверке эквивалентности? Было бы очень полезно увидеть на высоком уровне, как это может быть применимо.

— PhD

@PhD: сделано. Я думаю, это более «быстро и грязно», чем «на высоком уровне». Я новичок в тестировании на эквивалентность, и, как вы увидите, я не совсем продал его.

— Ник Стаунер,

10

Во-первых, обратите внимание, что @Nick Stauner приводит несколько очень важных аргументов, касающихся необязательной остановки . Если вы неоднократно тестируете данные по мере поступления образцов, останавливаясь после того, как тест является значительным, вам гарантирован значительный результат. Однако гарантированный результат практически бесполезен.

Ниже я представлю свои лучшие попытки развить дедуктивистскую, скептическую, фальсификационную позицию. Это, конечно, не единственный, но я думаю, что он довольно распространенный, или, по крайней мере, один с небольшой традицией.

Насколько я понимаю, Фишер первоначально ввел тесты значимости в качестве первого шага в исследовании данных - чтобы определить, какие факторы заслуживают дальнейшего изучения. Если только нулевая гипотеза, которую вы проверили, на самом деле не была критической гипотезой, от которой зависела ваша любимая теория (маловероятно), в некотором смысле, ваш первоначальный тест носил довольно исследовательский характер. Среди возможных шагов после исследования я вижу

Дальнейшее исследование
Оценка параметров
Предсказание и подтверждение

Дальнейшее исследование состоит из последующих тестов, в которых вы пытаетесь определить, есть ли какие-либо переменные, у которых есть информация об умеренности, или взаимодействовать с вашим эффектом. Например, может быть возраст участников играет роль? Обратите внимание, что такие анализы должны быть четко обозначены как исследовательские, или они в основном равносильны лжи. Если вы наткнулись на что-то, это сначала требует подтверждения. Как правило, вы всегда должны быть ясны - как в своих мыслях, так и в своих трудах - о том, когда вы работаете в поисковой и подтверждающей форме.

Затем, как только вы установили, что не уверены в том, что значение одного параметра точно равно нулю - как только вы решили, что пока будете считать, что тестируемый фактор оказывает какое-то влияние, - одним из возможных следующих шагов может быть дальнейшая оценка точного значения параметра . Например, на данный момент вы исключили только одно значение, 0 (при условии двустороннего теста). Однако ваши данные также ставят под сомнение многие другие возможные значения.

(100- )% доверительного интервала / CI содержит диапазон значений параметров, не отклоненных при p < , что соответствует множеству других возможных гипотез, которые касаются ваших данных помимо вашего первоначального значения H0. Поскольку ваш тест является значимым, значение, связанное с H0, среди них отсутствует. Но многие чрезвычайно большие и маленькие значения также будут исключены. $\alpha$ $\alpha$

Юм, как известно, утверждал, что мы никогда не сможем убедительно доказать правильность утверждения. Как правило, нетривиальные гипотезы всегда намного легче подделать, чем поддержать; быть легко фальсифицированным в принципе (будучи нетривиальным, делая точные предсказания), но все же не будучи фальсифицированным, на самом деле является одним из высших достоинств теории.

Таким образом, КИ не поможет вам доказать определенную ценность. Тем не менее, это сужает набор кандидатов. Возможно, единственные оставшиеся в живых кандидаты помогут вам выбрать одну из двух теорий, несовместимых с H0. Например, возможно, 0 исключено, но теория 1 предсказывает значение около 5, а теория 2 предсказывает значение около 15. Если ваш 95% -й доверительный интервал включает 5, но исключает 15, вы теперь также утратили доверие к теории 2, но к теории 1 остается в игре. Обратите внимание, что это на самом деле не зависит от того, насколько важен ваш первоначальный тест - даже если 0 среди значений не отклонено, многие значения будут отклонены. Возможно, для некоторых других исследователей некоторые из этих ценностей представляли интерес.

Таким образом, после того, как вы несколько определили свое понимание имеющегося эффекта, вы в идеале могли бы сделать более точный прогноз для последующего подтверждающего эксперимента, целью которого будет проверка более точной гипотезы, которую вы можете извлечь из текущего анализа. По общему признанию, отклонение вашей первоначальной статистической нулевой гипотезы не было таким уж серьезным испытанием вашей первоначальной исследовательской гипотезы, не так ли? Многие другие объяснения, чем те, которые вы предпочитаете, не зависят от H0. Кроме того, поскольку вы никогда не были в опасности принять H0, вы не могли фальсифицировать свою любимую теорию! Так что вам нужен более серьезный тест, Возможно, это на самом деле то, что вы хотите; Вы не хотите доказывать свою теорию, вы хотите подвергнуть ее все более серьезным испытаниям, пытаясь сфальсифицировать ее. Противостояние таким искренним (но справедливым) попыткам опровергнуть это лучшее, что может предложить теория. Но для серьезного теста вам нужна более точная теория, чем «0 это не так».

Теперь вы узнали много важных фактов, касающихся подтверждающего исследования; например, у вас есть представление о расхождениях и величине эффекта, о которых идет речь, что позволяет вам оценить требуемый размер выборки для последующего исследования с помощью анализа мощности. Вы также можете предсказать конкретное значение и предположить область практической эквивалентности / ВЕРЕВКИ вокруг него. Вы никогда не сможете доказать, что это конкретное значение является истинным значением; однако, если КИ из последующего эксперимента полностью попадает в вашу ВЕРЕВКУ, у вас есть подтверждающие доказательства вашей теории (и, возможно, это поставило под угрозу конкуренцию).

— Йона
источник

6

Идея о том, что вы не можете доказать положительное научное утверждение, а только опровергнуть его, является принципом фальсификации Поппера . Я согласен с тем, что вы не можете доказать, что эффект в точности равен какому-либо заданному значению в баллах (см. Мой ответ здесь: почему статистики говорят, что незначительный результат означает «вы не можете отклонить нуль», а не принять нулевую гипотезу? ). Ну и что?

Люди (или, по крайней мере, я ) много жалуются на проверку гипотез. Это потому что $p$ -значения обычно неправильно понимаются, и тесты гипотез используются для задач, которые они логически не могут выполнить. Например, проверка гипотез не должна использоваться для генерации гипотез или выбора переменных. Более того, с данными наблюдений по существу все нулевые нулевые гипотезы должны быть ложными, поэтому проверка таких данных не имеет большого смысла. Тем не менее, у ученых часто есть априорные гипотезы, выдвигаемые текущими теориями, которые они хотят проверить, и в истинном эксперименте ноль-ноль может быть правдой, поэтому проверка вполне разумна. Как правило, у исследователей есть основания подозревать, что нулевое значение может быть ложным, поэтому значительный результат в сочетании с сильным экспериментом является достоверной информацией.

Вы всегда можете сформировать доверительные интервалы, чтобы получить более четкое представление о точности вашей оценки, и продолжать собирать больше данных для повышения ее точности. Тем не менее, в экономическом плане вы получите убывающую прибыль . В какой-то момент вы просто не верите, что нулевая гипотеза дает разумное описание изучаемого явления. В каком случае, почему вы беспокоитесь?

Если в вашей области есть другие, которые еще не убеждены, но будут иметь больше (таких же) данных, то вы могли бы продолжить, но это выглядит как необычная ситуация. Мне кажется более вероятным, что у скептиков есть другие, существенные проблемы относительно того, является ли эта линия исследования достаточно информативной относительно основного вопроса. Таким образом, вам необходимо определить природу этих проблем, и, если вы считаете, что они заслуживают этой работы, найдите другие данные, которые более адекватно решают поставленные задачи. Например, вы можете попытаться повторить результаты, используя другую меру, другой параметр и / или другие условия контроля.

С другой стороны, каждый (более или менее) может быть удовлетворен вашими данными и выводами (поздравляем!). При таких счастливых обстоятельствах есть два направления, по которым вы можете продолжить свою исследовательскую программу:

Редукционистская подход будет стремиться понять механизмы , которые производят эффект , который вы установили. С точки зрения статистики, вы часто будете искать посредников и / или уточнение схемы причинных сил, которые связывают переменные, которые, как вы показали, связаны между собой.
$B$ $C$ $A$ $A$

tl; dr: Если у вас есть достаточно доказательств для ваших целей, что ноль ложен, выясните, какие другие теоретически мотивированные вопросы вы могли бы попытаться ответить, и продолжайте.

— Gung - Восстановить Монику
источник

0

Я хотел бы добавить, что ваш вопрос напоминает мне о моем более молодом «я»: я отчаянно хотел доказать свою гипотезу, потому что я не умел писать «гипотеза была неверна» таким образом, который помог улучшить статью, которую я писал. , Но затем я понял, что «чертовски моя абсолютно прекрасная гипотеза не может быть доказана» также имеет научную ценность: 1. Подумайте, ПОЧЕМУ ваша гипотеза не выдерживает критики. Это какая-то проблема с данными, или, вероятно, что-то с самой гипотезой? 2. Каковы последствия для более старых исследований?

В качестве примера: я написал магистерскую диссертацию об этнической принадлежности, используя тогда новый набор данных, который был больше, чем предыдущие наборы данных. Я проверил несколько спорных гипотез, таких как «этнический конфликт, разжигающий нефть» или «горный распад более вероятен для конфликта опыта». Я не смог доказать, что нефть способствует этническому конфликту, - но я написал две страницы о том, как качество доступного набора нефтяных данных повлияло на анализ (сам набор данных является временным рядом, а набор данных по нефтяным скважинам - нет). Тезис «горы вызывают конфликт» также провалился, но был плодотворным: в предыдущих исследованиях этот тезис анализировался с данными на уровне страны (например, средняя высота страны или около того),

Помните: опровержение гипотезы - это не провал, а результат, столь же хороший, как и доказанная гипотеза.

— Кристиан Зауэр
источник

Гипотезы, которые вы упоминаете, не являются (обычными) нулевыми гипотезами. Я думаю, что вы, возможно, упустили смысл ОП.

— Ник Стаунер

0

Существует метод для объединения вероятностей между исследованиями, описанными здесь . Не следует применять формулу вслепую без учета схемы результатов.

— Дэвид Лейн
источник