Почему статистики говорят, что незначительный результат означает «вы не можете отвергнуть ноль», а не принять нулевую гипотезу?

44

Традиционные статистические тесты, такие как t-критерий с двумя выборками, сосредоточены на попытке устранить гипотезу о том, что нет разницы между функцией двух независимых выборок. Затем мы выбираем уровень достоверности и говорим, что если разница средних значений превышает уровень 95%, мы можем отклонить нулевую гипотезу. Если нет, мы «не можем отвергнуть нулевую гипотезу». Кажется, это подразумевает, что мы тоже не можем принять это. Значит ли это, что мы не уверены, верна ли нулевая гипотеза?

Теперь я хочу разработать тест, в котором моя гипотеза состоит в том, что функция двух выборок одинакова (что является противоположностью традиционным статистическим тестам, где гипотеза состоит в том, что две выборки различны). Итак, моя нулевая гипотеза состоит в том, что два образца различны. Как мне разработать такой тест? Будет ли это так же просто, как сказать, что если значение p меньше 5%, мы можем принять гипотезу о том, что нет существенной разницы?

— ryu576
источник

Очень связанный: означает ли отказ от отклонения нулевого в подходе Неймана-Пирсона, что его нужно «принять»?

— говорит амеба: восстанови Монику

разница в средствах находится за пределами 95% уровня, мы можем отвергнуть нулевую гипотезу. 95% - это не «уровень», это здесь, в 95 случаях из 100 (сравнения), различие в статистике выборки возникает из-за колебаний выборки. это означает, что ноль принимается при альфа = .05. Сказать 95% -ый уровень - не правильный термин.

— Субхаш С. Давар

44

Традиционно нулевая гипотеза является балльной величиной. (Обычно это , но на самом деле это может быть любое значение точки.) Альтернативная гипотеза состоит в том, что истинным значением является любое значение, отличное от нулевого значения . Поскольку непрерывная переменная (например, средняя разница) может принимать значение, которое бесконечно близко к нулевому значению, но все еще не совсем равно, и, таким образом, делает нулевую гипотезу ложной, традиционная точечная нулевая гипотеза не может быть доказана. $0$

Представьте, что ваша нулевая гипотеза равна , а средняя разница, которую вы наблюдаете, равна . Разумно ли предположить, что нулевая гипотеза верна? Вы еще не знаете; было бы полезно узнать, как выглядит наш доверительный интервал . Скажем, ваш 95% доверительный интервал . Теперь мы должны сделать вывод, что истинное значение равно ? Мне было бы неудобно говорить, что, поскольку CI очень широк, и есть много больших ненулевых значений, которые, как мы можем разумно подозревать, согласуются с нашими данными. Допустим, мы собрали намного больше данных, и теперь наша наблюдаемая средняя разница составляет , но 95% -й ДИ равен $0$ $0.01$ $(-4.99,\ 5.01)$ $0$ $0.01$ $(0.005,\ 0.015)$ , Наблюдаемая средняя разница осталась прежней (что было бы удивительно, если бы это действительно произошло), но доверительный интервал теперь исключает нулевое значение. Конечно, это всего лишь мысленный эксперимент, но он должен прояснить основные идеи. Мы никогда не сможем доказать, что истинное значение - это какое-то конкретное значение; мы можем только (возможно) опровергнуть, что это какое-то значение балла. В тестировании статистических гипотез тот факт, что значение p> 0,05 (и что 95% -й ДИ включает ноль) означает, что мы не уверены, верна ли нулевая гипотеза .

Что касается вашего конкретного случая, вы не можете построить тест, в котором альтернативная гипотеза состоит в том, что средняя разница равна а нулевая гипотеза - это что-то отличное от нуля. Это нарушает логику проверки гипотез. Вполне разумно, что это ваша основная научная гипотеза, но она не может быть вашей альтернативной гипотезой в ситуации проверки гипотез. $0$

Так что ты можешь сделать? В этой ситуации вы используете тестирование на эквивалентность. (Возможно, вы захотите прочитать некоторые из наших тем по этой теме, щелкнув тег эквивалентности .) Типичная стратегия заключается в использовании подхода двухсторонних тестов. Очень кратко, вы выбираете интервал, в пределах которого вы бы посчитали, что истинная средняя разница также может быть $0$ Если вам все равно, то вы выполняете односторонний тест, чтобы определить, меньше ли наблюдаемое значение, чем верхняя граница этого интервала, и еще один односторонний тест, чтобы определить, превышает ли он нижнюю границу. Если оба эти теста являются значимыми, то вы отвергли гипотезу о том, что истинное значение находится вне интервала, о котором вы заботитесь. Если один (или оба) несущественны, вы не можете отклонить гипотезу о том, что истинное значение находится за пределами интервала.

Например, предположим, что что-то в пределах интервала настолько близко к нулю, что вы думаете, что оно по существу совпадает с нулем для ваших целей, поэтому вы используете это в качестве своей основной гипотезы. Теперь представьте, что вы получите первый результат, описанный выше. Хотя попадает в этот интервал, вы не сможете отклонить нулевую гипотезу ни в одном одностороннем t-тесте, поэтому вы не сможете отклонить нулевую гипотезу. С другой стороны, представьте, что вы получили второй результат, описанный выше. Теперь вы обнаружите, что наблюдаемое значение попадает в обозначенный интервал, и может быть показано, что оно одновременно меньше верхней границы и больше нижней границы, поэтому вы можете отклонить нулевое значение. (Стоит отметить, что вы можете отклонить как $(-0.02,\ 0.02)$ $0.01$ гипотеза о том, что истинное значение равно , и гипотеза о том, что истинное значение лежит за пределами интервала , что на первый взгляд может показаться странным, но полностью соответствует логике проверки гипотез.) $0$ $(-0.02,\ 0.02)$

— Gung - Восстановить Монику
источник

1

«Традиционно нулевая гипотеза является точечной величиной» - хотя в некоторых случаях мы пишем нулевую гипотезу, как если бы она была точечной, но на самом деле она составная . Мне интересно, какое значение имеет аргумент в вашем первом абзаце для односторонних тестов. (Поскольку мы, насколько я знаю, не пишем «принимаем » даже для односторонних тестов, я не уверен, что в первом абзаце отражена истинная причина, по которой мы не пишем »принимаем .)

H_{0}

$H_0$

H_{0}

$H_0$

— Silverfish

1

@Silverfish, абзац заканчивается: «традиционная точечная нулевая гипотеза не может быть доказана». Однако мы не пишем "accept " для односторонних тестов по той же причине. Когда , истинное значение может быть , но сколь угодно близко и, следовательно, незначительно. Если вы действительно хотите показать, что это было , то вы можете изменить направление одностороннего теста. Я не вижу здесь проблемы.

H_{0}

$H_0$

H_{0} : δ \leq 0

$H_0: \delta\le 0$

δ

$\delta$

> 0

$>0$

< 0

$<0$

— gung - Восстановить Монику

1

Я не говорю, что то, что вы написали, неверно, и я подозревал, что это была идея, которую вы пытались донести. Очевидно, что причина, по которой вы взялись за двусторонний тест с точечной гипотезой в первых двух параграфах вашего ответа, заключается в том, что это именно тот случай, о котором идет речь. Но если ваш ответ будет перечитан кем-то, кто задается вопросом, почему мы вообще не «принимаем », им может быть не ясно, что ваш аргумент действительно выходит за рамки нулевых гипотез.

H_{0}

$H_0$

— Серебряная рыба

4

Аргумент «мы никогда не сможем доказать, что истинное значение - это какое-то конкретное значение точки; мы можем только (возможно) опровергнуть, что это какое-то значение точки» - это конкретный случай - что, если CI оказался (-0,015) , -0,005)? До какой степени мы «доказали» (я знаю, что вы не используете «доказать» в буквальном, математическом смысле - возможно, «продемонстрировать» или «предложить» ближе к предполагаемому значению), кажется, мы имеем также «доказано» , но мы все равно не будем «принимать»

δ \neq 0

$\delta \neq 0$

δ \leq 0

$\delta \leq 0$

H_{0} : δ \leq 0

$H_0:\,\delta \leq 0$

— Silverfish

1

@ Silverfish Я думаю, что ваш последний комментарий имеет смысл. Я чувствую, что с философской точки зрения одностороннее тестирование с несколько отличается от двустороннего с нулевой точкой , хотя математически они почти одинаковы. Принятие нулевой точки не имеет смысла; но тестирование против может фактически привести к принятию одного из них (или неубедительному результату). Плюс одностороннее тестирование имеет больше смысла с байесовской точки зрения. Плюс научное предсказание должно иметь направление. Я думаю, я начинаю думать, что одностороннее тестирование недостаточно оценено.

H_{0} : δ < 0

$H_0:\delta<0$

H_{0} : δ = 0

$H_0:\delta=0$

δ > 0

$\delta>0$

δ < 0

$\delta<0$

— говорит амеба: восстанови Монику

28

Рассмотрим случай, когда нулевая гипотеза состоит в том, что на монете 2 головы, т.е. вероятность головок равна 1. Теперь данные - это результат подбрасывания монеты один раз и видения голов. Это приводит к p-значению 1,0, которое больше, чем у любой разумной альфа. Значит ли это, что монета двуглавая? это может быть, но это также может быть честная монета, и мы случайно увидели головы (это случится в 50% случаев с честной монетой). Таким образом, высокое значение p в этом случае говорит о том, что наблюдаемые данные полностью согласуются с нулем, но это также согласуется с другими возможностями.

Точно так же, как приговор «Не виновен» в суде может означать, что обвиняемый невиновен, это также может быть связано с тем, что обвиняемый виновен, но доказательств недостаточно. То же самое с нулевой гипотезой, которую мы не можем отвергнуть, потому что нулевое значение может быть истинным, или же у нас может не быть достаточно доказательств, чтобы отвергнуть, даже если оно ложное.

— Грег Сноу
источник

3

Мне нравится пример "Не виновен". Пройдя еще один шаг, возобновив рассмотрение дел, основанных на свидетельствах ДНК, которые мы не знали, как использовать в прошлом, и отменив некоторые убеждения, - это прекрасный пример того, как добавление большего количества данных может быть всем, что необходимо, чтобы иметь достаточно доказательств.

— Томас Шпайдель

7

Отсутствие доказательств не является доказательством отсутствия (название статьи Альтмана Бланда о BMJ). Р-значения дают нам доказательство отсутствия, только когда мы считаем их значительными. В противном случае они ничего не говорят нам. Отсюда и отсутствие доказательств. Другими словами: мы не знаем, и может помочь больше данных.

— Томас Шпайдель
источник

5

Нулевая гипотеза, , обычно принимается за то, что у вас есть основания предполагать. Часто это «текущее состояние знаний», которое вы хотите показать, статистически маловероятно. $H_0$

Обычная установка для проверки гипотез - минимизировать ошибку типа I , то есть минимизировать вероятность того, что мы отвергнем нулевую гипотезу в пользу альтернативной даже если верна. Это ошибка, которую мы решили сначала минимизировать, потому что мы не хотим опровергать общие знания, когда эти общие знания действительно верны. $H_1$ $H_0$

Вы должны всегда проектировать свой тест, помня, что должен быть тем, что вы ожидаете. $H_0$

Если у нас есть две выборки, которые мы ожидаем одинаково распределить, то наша нулевая гипотеза состоит в том, что выборки одинаковы. Если у нас есть две выборки, которые, как мы ожидаем, будут (дико) разными, наша нулевая гипотеза состоит в том, что они разные.

— SomeEE
источник

А что, если у нас нет никаких ожиданий ... может быть, мы просто не знаем. Кроме того, как будет работать правило принятия решений, если мы хотим отклонить гипотезу о том, что эти два образца различны?

— ryu576

Если у вас нет ожиданий, вы хотите, чтобы оба типа ошибок были небольшими, но это не всегда возможно. Вам нужна дополнительная переменная (например, увеличение размера выборки), чтобы сделать это.

— SomeEE

2

Так как мы можем отклонить нуль, но не доказать его истинность, то нуль обычно противоположен тому, что мы хотим доказать или предположить, что это правда. Если мы считаем, что есть разница, то значение NULL не должно быть никакой разницы, чтобы вы могли это опровергнуть.

— Грег Сноу,

@Greg Это хороший подход, если вы знаете, какой из них вы хотите быть правдой, что, вероятно, является обычным случаем.

— SomeEE

1

«То, что вы ожидаете» и «что они разные», вообще не может быть статистической гипотезой, поскольку они не являются количественными. В этом суть вопроса: асимметрия ролей между нулевой и альтернативной гипотезами проистекает из способности определять распределение выборки тестовой статистики при нулевом значении по сравнению с необходимостью параметризации распределения по величине эффекта под Альтернативная гипотеза. И при этом мы не «минимизируем ошибку типа I»: этого никогда не происходит (минимум всегда равен 0). Тесты ищут баланс между типами ошибок типа I и II.

— whuber