Вероятность того, что нулевая гипотеза верна


14

Таким образом, это может быть общий вопрос, но я никогда не нашел удовлетворительного ответа.

Как вы определяете вероятность того, что нулевая гипотеза верна (или ложна)?

Допустим, вы даете студентам две разные версии теста и хотите узнать, были ли версии эквивалентны. Вы выполняете t-тест, и он дает значение р .02. Какая хорошая р-величина! Это должно означать, что вряд ли тесты эквивалентны, верно? К сожалению, похоже, что P (результаты | ноль) не говорит вам P (нуль | результаты). Нормальная вещь, которую нужно сделать, это отвергнуть нулевую гипотезу, когда мы сталкиваемся с низким значением p, но как мы узнаем, что мы не отвергаем нулевую гипотезу, которая, скорее всего, верна? Чтобы привести глупый пример, я могу разработать тест на Эболу с ложным положительным показателем 0,02: положить 50 ведер в ведро и написать «Эбола» на одном. Если я проверю кого-то с этим, и он выберет шарик «Эбола», значение p (P (выбирая шарик | у них нет вируса Эбола)) равно .02,

Вещи, которые я рассмотрел до сих пор:

  1. Предполагая, что P (null | results) ~ = P (results | null) - явно неверно для некоторых важных приложений.
  2. Принять или отклонить гипотезу, не зная P (нуль | результаты). Почему мы принимаем или отвергаем их? Разве не весь смысл в том, что мы отвергаем то, что мы думаем, ЛИБО, и принимаем то, что, ПОЧЕМУ, верно?
  3. Используйте теорему Байеса - но как вы получаете ваши приоры? Разве вы не оказались в том же месте, пытаясь определить их экспериментально? И выбирать их априори очень произвольно.
  4. Я нашел очень похожий вопрос здесь: stats.stackexchange.com/questions/231580/. Один ответ здесь, по-видимому, в основном говорит о том, что не имеет смысла спрашивать о вероятности того, что нулевая гипотеза верна, поскольку это байесовский вопрос. Может быть, я байесовец в душе, но я не могу представить, что не задаю этот вопрос. Фактически, кажется, что наиболее распространенное недопонимание значений p состоит в том, что они являются вероятностью истинной нулевой гипотезы. Если вы действительно не можете задавать этот вопрос как частый участник, тогда мой главный вопрос # 3: как вы получаете свои приоры, не зацикливаясь?

Изменить: Спасибо за все вдумчивые ответы. Я хочу затронуть пару общих тем.

  1. Определение вероятности: я уверен, что об этом много литературы, но моя наивная концепция - это что-то вроде «вера в то, что абсолютно рациональное существо дало бы информацию» или «шансы на ставки, которые максимизируют прибыль, если ситуация был повторен, и неизвестным было разрешено варьировать ".
  2. Можем ли мы когда-нибудь узнать P (H0 | результаты)? Конечно, это кажется сложным вопросом. Однако я полагаю, что каждая вероятность теоретически известна, поскольку вероятность всегда зависит от данной информации. Каждое событие либо произойдет, либо не произойдет, поэтому вероятность не существует с полной информацией. Он существует только при недостатке информации, поэтому его следует знать. Например, если мне скажут, что у кого-то есть монета и спросят вероятность появления голов, я бы сказал, 50%. Может случиться, что монета весит 70% по отношению к головам, но я не получил эту информацию, поэтому вероятность того, что у меня была информация, составляла 50%, точно так же, как если бы она приземлилась на хвосты, вероятность была 70%. головы, когда я узнал это. Поскольку вероятность всегда зависит от набора (недостаточных) данных,
    Изменить: «Всегда» может быть слишком сильным. Могут быть некоторые философские вопросы, по которым мы не можем определить вероятность. Тем не менее, в реальных ситуациях, хотя мы «почти никогда» не можем иметь абсолютную уверенность, «почти всегда» должна быть наилучшая оценка.

1
Если ваша «нулевая гипотеза» похожа на , то есть на то, что некоторая разница равна нулю, то отклонение означает, что вы нашли достаточно веские доказательства того, что H A : θ = 0 . Вместо этого вы можете использовать нулевую гипотезу, например, H 0 : | θ | Δ , то есть какая-то разница, по крайней мере, равна Δ (где Δ - это то, что исследователь считает наименьшей разницей, которая их волнует), а отклонение означает, что вы нашли H A : | θ | <ЧАС0:θзнак равно0ЧАСA:θзнак равно0ЧАС0:|θ|ΔΔΔ (то есть - Δ < θ < Δ ). Смотрите тесты на эквивалентностьstats.stackexchange.com/tags/tost/infoЧАСA:|θ|<Δ-Δ<θ<Δ
Алексис

Сила эксперимента (и статистического теста, анализирующего результаты эксперимента) заключается в вероятности того, что, если бы был эффект определенного размера или больше, эксперимент обнаружил бы его с заданным порогом значимости. statisticsdonewrong.com/power.html
Беннет Браун,


Ваш пример с монетами хороший. Это показывает, что вы никогда не узнаете P (H0 | результатов), если знаете только результаты и не делаете дополнительных предположений . Как вы знаете , вероятность голов в данном броске «предполагающий» определенная справедливость монеты? Да. (но это гипотетическое, учитывая предположения, и вы никогда не будете знать , если ваши предположения верны) Делают знать вероятность голов в данном броске, зная ряд предыдущих результатов. Нет! и не важно, насколько велико количество предыдущих результатов, которые вы знаете. Вы не можете точно знать вероятность головы в следующем броске.
Секст Эмпирик

Ответы:


13

Вы, безусловно, определили важную проблему, и Байесианизм является одной из попыток ее решения. Вы можете выбрать неинформативный априор, если хотите. Я позволю другим рассказать больше о байесовском подходе.

Тем не менее, в подавляющем большинстве случаев, вы знаете,ноль ложен в популяции, вы просто не знаете, насколько велик эффект. Например, если вы выдвигаете совершенно нелепую гипотезу - например, что вес человека связан с тем, является ли его SSN нечетным или четным, - и вам каким-то образом удается получить точную информацию от всего населения, эти два средства не будут точно равны. Они (вероятно) будут отличаться на незначительную величину, но не будут точно совпадать. «Если вы пойдете по этому пути, вы лишите акцента на значениях p и тестах значимости и потратите больше времени на оценку величины эффекта и его точности. Итак, если у вас очень большая выборка, вы можете обнаружить, что люди с нечетным SSN весят на 0,001 фунта больше, чем люди с четным SSN, и что стандартная ошибка для этой оценки составляет 0,000001 фунта, поэтому p <0,05, но никого это не должно волновать.


1
N

1
Хороший вопрос о размере эффекта. Есть ли аналог ситуаций, таких как тестирование на болезнь, где вопрос имеет булеву природу?
Калев Марик,

1
FWIW, я совершенно готов поверить, что нет никакой связи между весом человека и является ли его SSN нечетным или четным. В обсервационном исследовании эти переменные будут коррелированы с некоторыми другими переменными и т. Д., Так что в конечном итоге будет ненулевая маргинальная связь. Я думаю, что обоснованным является то, что, поскольку большинство исследователей тратят свое время на исследование, есть некоторые веские основания подозревать, что в действительности существует эффект, отличный от 0.
gung - Восстановить Монику

1
@ Gung вы можете верить всему, что хотите, но между весом и SSN определенно существует ненулевая связь. Мы знаем что-то больше об отношениях, кроме их существования и того, что они, вероятно, маленькие.
Эмори

1
Я знаю, что вес является непрерывной переменной. Хотя мы можем записать это как целое число килограммов. Ваш комментарий был о наблюдательном исследовании (вывод о населении на основе выборки). Поскольку мое исследование финансируется за счет гипотетических долларов, это исследование населения, использующее шкалы бесконечной точности - нет необходимости в статистическом выводе.
Эмори

3

Чтобы ответить на этот вопрос, вам нужно определить вероятность. Это потому, что нулевая гипотеза является либо истинной (за исключением того, что она почти никогда не бывает, если вы рассматриваете точечные нулевые гипотезы), либо ложной. Одно из определений состоит в том, что моя вероятность описывает мое личное мнение о том, насколько вероятно, что мои данные возникли из этой гипотезы, по сравнению с тем, насколько вероятно, что мои данные возникли из других гипотез, которые я рассматриваю. Если вы начнете с этой структуры, то ваш предшественник - это просто ваше убеждение, основанное на всей вашей предыдущей информации, но исключая имеющиеся данные.


Хорошая точка зрения. Я думаю, что моя идея вероятности является чем-то вроде «совершенно рациональной веры», а не моей личной. Я отредактировал свой вопрос, чтобы ответить на ваши вопросы.
Калев Марик

2

Ключевая идея заключается в том, что, в общем, вы можете эмпирически показать, что что-то является ложным (просто предоставьте контрпример), но вы не можете показать, что что-то определенно верно (вам нужно проверить «все», чтобы показать, что нет контрпримеров).

Фальсифицируемость является основой научного метода: вы предполагаете, что теория верна, и сравниваете ее предсказания с тем, что вы наблюдаете в реальном мире (например, гравитационная теория Нетвона считалась «верной», пока не выяснилось, что она не работает слишком хорошо в экстремальных условиях).

Это также то, что происходит при проверке гипотез: когда P (results | null) низок, данные противоречат теории (или вам не повезло), поэтому имеет смысл отвергнуть нулевую гипотезу. Фактически, предположим, что null имеет значение true, тогда P (null) = P (null | results) = 1, поэтому единственный способ, которым P (results | null) является низким, состоит в том, что P (results) является низким (неудача).

С другой стороны, когда P (results | null) велико, кто знает. Может быть, null ложно, но P (результат) велико, и в этом случае вы ничего не можете сделать, кроме разработки лучшего эксперимента.

Позвольте мне повторить: вы можете только показать, что нулевая гипотеза (вероятно) неверна. Так что я бы сказал, что ответ - это половина вашего второго пункта: вам не нужно знать P (null | results), когда P (results | null) низок, чтобы отклонить null, но вы не можете сказать, что null - это правда, это P (результаты | ноль) высока.

Это также, почему воспроизводимость очень важна: было бы подозрительно быть неудачливым пять раз из пяти.


ЧАС0:ЧАСaLTерNaTяvе:

Я согласен с Мартийном. Если вы можете сказать мне, как определить вероятность того, что нулевая гипотеза неверна, я бы посчитал это успешным ответом на мой вопрос.
Калев Марик

μ1000п(μ1000знак равно3,50)

2

-------------------------------------------------- ---------------------

(редактировать: я думаю, что было бы полезно поместить версию моего комментария к этому вопросу сверху в этом ответе, поскольку она намного короче)

Несимметричное вычисление p (a | b) происходит, когда оно рассматривается как причинно-следственная связь, подобная p (результат | гипотеза). Это вычисление не работает в обоих направлениях: гипотеза вызывает распределение возможных результатов, но результат не вызывает распределение гипотез.

P (результат | гипотеза) является теоретическим значением, основанным на гипотезе причинно-следственной связи -> результат.

Если p (a | b) выражает корреляцию или наблюдаемую частоту (не обязательно причинную связь), то она становится симметричной. Например, если мы запишем количество игр, в которых спортивные команды выигрывают / проигрывают, и количество игр, в которых результаты спортивных команд меньше или равны / более 2 голов в таблице непредвиденных обстоятельств. Тогда P (победа | оценка> 2) и P (оценка> 2 | победа) являются похожими экспериментальными / наблюдательными (не теоретическими) объектами.

-------------------------------------------------- -------------------

Очень упрощенный

Выражение P (результат | гипотеза) кажется настолько простым, что можно легко подумать, что вы можете просто изменить условия. Однако «результат» - это стохастическая переменная с вероятностным распределением (учитывая гипотезу). И «гипотеза» не является (как правило) стохастической переменной. Если мы сделаем «гипотезу» стохастической переменной, то это подразумевает распределение вероятностей различных возможных гипотез так же, как мы имеем распределение вероятностей различных результатов. (но результаты не дают нам этого вероятностного распределения гипотезы, а просто изменяют распределение с помощью теоремы Байеса)


Пример

Скажем, у вас есть ваза с красным / синим мрамором в соотношении 50/50, из которой вы берете 10 шариков. Тогда вы можете легко выразить что-то вроде P (результат | ваз эксперимент), но не имеет смысла выражать P (ваз эксперимент | результат). Результат (сам по себе) не является распределением вероятностей различных возможных экспериментов с вазами.

Если у вас есть несколько возможных типов экспериментов с вазами, в этом случае можно использовать выражение что-то вроде P (тип эксперимента с вазами) и использовать правило Байеса, чтобы получить P (тип эксперимента с вазами | результат), потому что теперь тип Ваза эксперимента является стохастической переменной. (примечание: более точно это P (тип эксперимента с вазой | результат и распределение типа экспериментов с вазой))

Тем не менее, этот P (тип эксперимента с вазой | результат) требует (мета-) гипотезы о данном начальном распределении P (тип эксперимента с вазой).


Интуиция

может быть, выражение ниже помогает понять одно направление

X) Мы можем выразить вероятность X с учетом гипотезы о X.

таким образом

1) Мы можем выразить вероятность результатов, учитывая гипотезу о результатах.

и

2) Мы можем выразить вероятность гипотезы, учитывая (мета) гипотезу об этих гипотезах.

Это правило Байеса, которое позволяет нам выразить обратное к (1), но нам нужно (2) для этого, гипотеза должна быть стохастической переменной.


Отказ как решение

Поэтому мы не можем получить абсолютную вероятность для гипотезы с учетом результатов. Это факт жизни, попытка бороться с этим фактом, по-видимому, является источником отсутствия удовлетворительного ответа. Решение, чтобы найти удовлетворительный ответ: принять, что вы не можете получить (абсолютную) вероятность для гипотезы.


Frequentists

Точно так же, как неспособность принять гипотезу, мы не должны (автоматически) отвергать гипотезу, когда P (результат | гипотеза) близка к нулю. Это только означает, что есть свидетельства, которые поддерживают изменение наших убеждений, и это также зависит от P (результат) и P (гипотеза), как мы должны выражать наши новые убеждения.

Когда у частых есть какая-то схема отказа, это нормально. То, что они выражают, не является ли гипотеза верной или ложной или вероятностью для таких случаев. Они не могут этого сделать (без приоры). Вместо этого они выражают частоту отказов (достоверность) их метода (учитывая, что некоторые предположения верны).


всеведущий

Один из способов избавиться от всего этого - устранить понятие вероятности. Если вы наблюдаете всю популяцию в 100 мраморов в вазе, то вы можете высказать определенные утверждения о гипотезе. Итак, если вы становитесь всеведущим, а понятие вероятности не имеет значения, тогда вы можете утверждать, верна или нет гипотеза (хотя вероятность также не входит в уравнение)


Ваш пример вазы имеет смысл. Однако в реальной жизни мы почти никогда не знаем, сколько шариков каждого цвета находится в вазе. У меня всегда возникает вопрос: «Есть ли больше красного мрамора, чем синего», и мои данные таковы, что я вытащил 4 красных мрамора и 1 синий мрамор из вазы. Теперь я могу сделать допущения типа «вероятно, ~ 100 мраморов, и каждый мрамор либо красного, либо синего цвета с вероятностью 50%», но в реальной жизни я часто теряюсь в том, как получить произвольно и некругло получить эти приоры.
Калев Марик

Это скорее гносеологический вопрос, чем проблема вероятности. Выражение типа P (результат | гипотеза) аналогично «ложно», я имею в виду, что это гипотетическое выражение. Вы можете выразить вероятность результата, учитывая определенную гипотетическую веру в «реальность». Точно так же, как вероятность экспериментального исхода является гипотетической, выражение для вероятности некоторой теории (с некоторым наблюдением результата или без него) требует определенного гипотетического представления о «реальности». Да, приоры несколько произвольны. Но такова и гипотеза.
Секст Эмпирик

Говоря о вероятностях. Обратите внимание, что правило Байеса касается двух стохастических переменных: P (a | b) P (b) = P (b | a) P (a). Вы можете связать условные вероятности. Если один из этих P (b | a) является причинно-следственной связью, как в «теории приводит к распределению результатов», то вы можете рассчитать ее точно. Такой случай только потому, что (1направленная) причинность. Гипотеза позволяет узнать (гипотетически) все, что вам нужно, шарики в вазе. Наоборот, не работает. Экспериментальный результат 4 красный против 1 синий, не вызывает распределение вероятности мрамора в вазе.
Секст Эмпирик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.