Почему люди используют р-значения вместо вычисления вероятности модели данных данных?


43

Грубо говоря, значение p дает вероятность наблюдаемого исхода эксперимента с учетом гипотезы (модели). Имея эту вероятность (p-значение), мы хотим оценить нашу гипотезу (насколько она вероятна). Но не будет ли более естественным рассчитать вероятность гипотезы с учетом наблюдаемого исхода?

Более подробно. У нас есть монета. Мы переворачиваем это 20 раз и получаем 14 голов (14 из 20 - это то, что я называю «результатом эксперимента»). Теперь наша гипотеза состоит в том, что монета справедлива (вероятности головы и хвоста равны друг другу). Теперь мы рассчитываем значение p, которое равно вероятности получить 14 или более голов за 20 бросков монеты. Хорошо, теперь у нас есть эта вероятность (0,058), и мы хотим использовать эту вероятность для оценки нашей модели (какова вероятность того, что у нас есть справедливая монета).

Но если мы хотим оценить вероятность модели, почему бы нам не рассчитать вероятность модели с учетом эксперимента? Почему мы рассчитываем вероятность эксперимента с учетом модели (значение p)?


Вам все равно придется каким-то образом смоделировать свой эксперимент, чтобы вычислить функцию правдоподобия.
Раскольников

11
Пит Диксон в 1998 году написал статью под названием «Почему ученые ценят p-значения» ( psychonomic.org/backissues/1631/R382.pdf ), которая может быть информативным. Хорошим продолжением могла бы стать статья Гловера и Диксона 2004 года о соотношении правдоподобия в качестве метрики замещения ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).
Майк Лоуренс

2
Майк, это выглядит подозрительно, как хороший ответ для меня. Что это делает в комментариях?
Мэтт Паркер

Джон Д. Кук опубликовал отличный ответ на мой вопрос, который, я думаю, вы найдете интересным: stats.stackexchange.com/questions/1164/…
doug

Люди не используют р-значения, статистики используют. (Не смог устоять перед содержательным высказыванием, которое также верно. Конечно, как только вы начинаете правильно определять каждое существительное, оно теряет свою содержательность.)
Уэйн

Ответы:


31

Вычисление вероятности того, что гипотеза верна, не вписывается в частое определение вероятности (долгосрочная частота), которое было принято, чтобы избежать предполагаемой субъективности байесовского определения вероятности. Истина конкретной гипотезы не является случайной величиной, она либо истинна, либо нет и не имеет долгосрочной частоты. Действительно, более естественно интересоваться вероятностью истинности гипотезы, и это ИМХО, почему p-значения часто неверно истолковывают как вероятность того, что нулевая гипотеза верна. Отчасти трудность заключается в том, что из правила Байеса мы знаем, что для вычисления апостериорной вероятности того, что гипотеза верна, нужно начинать с предварительной вероятности, что гипотеза верна.

Байесовский бы вычислить вероятность того, что гипотеза верна, учитывая данные (и его / ее до веры).

В сущности, при выборе между частотным и байесовским подходами выбор заключается в том, является ли предполагаемая субъективность байесовского подхода более отвратительной, чем тот факт, что частотный подход, как правило, не дает прямого ответа на вопрос, который вы на самом деле хотите задать, - но есть место для и то и другое.

В случае вопроса о том, является ли монета справедливой, то есть вероятность головы равна вероятности хвоста, у нас также есть пример гипотезы, которая, как мы знаем, в реальном мире почти наверняка неверна с самого начала. Две стороны медали несимметричны, поэтому следует ожидать небольшой асимметрии вероятностей голов и хвостов, поэтому, если монета «проходит» тест, это просто означает, что у нас недостаточно наблюдений, чтобы мы могли заключите, что мы уже знаем, чтобы быть правдой - что монета очень слабо смещена!


4
На самом деле, большинство монет на самом деле очень близко к ярмарке, и трудно придумать физически правдоподобный способ сместить
Бен Болкер

8
Быть очень близким к справедливому - это не то же самое, что быть абсолютно справедливым, что является нулевой гипотезой. Я указывал на одну из особенностей проверки гипотез, а именно на то, что мы часто знаем, что нулевая гипотеза неверна, но все равно ее используют. Более практический тест будет нацелен на то, чтобы обнаружить, есть ли доказательства того, что монета имеет существенное смещение, а не существенное доказательство того, что монета имеет тенденциозность.
Дикран Сумчатый

1
Привет, может быть, я ошибаюсь, но я думал, что в науке вы никогда не сможете сказать, что альтернативная гипотеза верна, вы можете только сказать, что нулевая гипотеза отклонена, и вы принимаете альтернативную гипотезу. Для меня значение p отражает вероятность того, что вы допустите ошибку типа 1, то есть отклоните альтернативную гипотезу и примете нулевую гипотезу (скажем, p = 0,05 или 5% времени. Важно различать тип 1 ошибка и ошибка типа 2, а также роль, которую власть играет в моделировании событий
user2238

3
Для частых тестов я бы использовал еще более слабое утверждение: вы либо «отвергаете нулевую гипотезу», либо «не можете отвергнуть нулевую гипотезу» и ничего не принимаете. Ключевым моментом является то, что (как в случае с предвзятой монетой) иногда вы априори знаете, что нулевая гипотеза не верна, просто у вас недостаточно данных, чтобы продемонстрировать, что она не верна; в этом случае было бы странно "принять" это. Частые тесты имеют частоту ошибок типа I и типа II, но это не означает, что они могут говорить о вероятности того, что конкретная гипотеза верна, как в ОП.
Дикран Сумчатый

2
@ user2238 p-значение - это вероятность ошибки типа I, только когда нулевая гипотеза является «простой» (не составной), и она оказывается верной. Например, в одностороннем тесте того, смещена ли монета к хвостам ( ), использование двуглавой монеты гарантирует, что вероятность ошибки типа I равна нулю, даже если значение p из любой конечный образец будет отличен от нуля. H0:p<0.5
whuber

18

Ничего подобного, чтобы ответить на действительно старый вопрос, но здесь идет ....

Значения р являются почти действительными проверками гипотез. Это слегка адаптированный отрывок из книги теории вероятностей Джейнса 2003 года (Повторяющиеся эксперименты: вероятность и частота). Предположим, что у нас есть нулевая гипотеза которую мы хотим проверить. У нас есть данные D и априорной информации I . Предположим, что существует некоторая неопределенная гипотеза H A, с которой мы будем проверять H 0 . Отношение шансов сзади для H A против H 0 тогда определяется как:H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

Теперь первый член в правой части не зависит от данных, поэтому данные могут влиять на результат только через второй член. Теперь мы всегда можем придумать альтернативную гипотезу такую, что P ( D | H A I ) = 1 - гипотеза «идеального соответствия». Таким образом, мы можем использовать 1HAP(D|HAI)=1 как мера того, насколько хорошо данные могут поддержать любую альтернативную гипотезу над нулем. Нет альтернативной гипотезы о том, что данные могут поддерживать болееH0более чем на11P(D|H0I)H0 . Мы также можем ограничить класс альтернатив, и изменение состоит в том, что1заменяется максимальным правдоподобием (включая нормализующие константы) внутри этого класса. ЕслиP(D|H0I)начинает становиться слишком малым, то мы начинаем сомневаться в нуле, потому что число альтернатив междуH0иHAрастет (включая некоторые с незначительными априорными вероятностями). Но это очень близко к тому, что делается с p-значениями, но с одним исключением: мы не вычисляем вероятность дляt(1P(D|H0I)1P(D|H0I)H0HA для некоторой статистики t ( D ) и некоторой «плохой» области статистики. Мы рассчитываем вероятность для D - фактически имеющейся у нас информации, а не некоторого ее подмножества t ( D ) .t(D)>t0t(D)Dt(D)

Другая причина, по которой люди используют p-значения, заключается в том, что они часто составляют «правильный» тест гипотезы, но их легче вычислить. Мы можем показать это на очень простом примере проверки нормального среднего с известной дисперсией. У нас есть данные с предполагаемой моделью x iN o r m a l ( μ , σ 2 ) (часть предшествующей информации I ). Мы хотим проверить H 0 : μ = μ 0D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0, Тогда мы имеем, после небольшого расчета:

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

Где иs2=1x¯=1Ni=1Nxi. Это показываетчто максимальное значениеP(D|H0I)будет достигнутокогдаμ0= ¯ х . Максимальное значение:s2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

Итак, мы берем соотношение этих двух, и получаем:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

Где - это «Z-статистика». Большие значения| z| ставить под сомнение нулевую гипотезу относительно гипотезы о нормальном среднем значении, которое наиболее сильно подтверждается данными. Мы также можем видетьчто ¯ х является только частью данныхкоторые необходимы, итаким образомявляется достаточной статистикой для испытания.z=Nx¯μ0σ|z|x¯

Подход p-значения к этой проблеме почти такой же, но наоборот. Начнем с достаточной статистики , и мы caluclate его распределение выборки, которая легко показать, ¯ X ~ N о г т л ( μ , сг 2x¯-где я использовал заглавную буквучтобы отличить случайную величину¯Xот наблюдаемого значения¯х. Теперь нам нужно найти регион, который ставит под сомнение нулевую гипотезу: легко увидеть, что это те регионы, где| ¯X-μ0| большой. Таким образом, мы можем рассчитать вероятность того, что| ¯X-μ0| | ¯х-μ0| как мера того, насколько далеко наблюдаемые данные от нулевой гипотезы. Как и раньше, это простой расчет, и мы получаем:X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

|z|

Хотя в этом примере это обе простые вещи, в более сложных случаях это не всегда так просто. В некоторых случаях может быть проще выбрать правильную статистику для использования и рассчитать распределение выборки. В других может быть легче определить класс альтернатив и максимизировать этот класс.

Этот простой пример учитывает большое количество тестирования на основе p-значений просто потому, что многие тесты на гипотезы относятся к «приблизительной нормальной» разновидности. Он также дает приблизительный ответ на вашу проблему с монетами (используя нормальное приближение к биному). Это также показывает, что значения p в этом случае не приведут вас в заблуждение, по крайней мере, с точки зрения проверки одной гипотезы. В этом случае мы можем сказать, что значение p является показателем против нулевой гипотезы.

0.193.870.05196.830.12.330.052.78


4
+1. «... выбор статистики равносилен определению альтернативной гипотезы, которую вы рассматриваете», мне кажется глубоким пониманием.
whuber

kk

1
@ faheemmitha - вы правы в отношении комбинаторного взрыва, однако этого не происходит для подхода, который я описываю (на самом деле вы можете показать, что байесовский подход эффективно определяет остатки). Это потому, что нам нужно только определить класс, а затем максимизировать. Нам не нужно оценивать каждую альтернативу, просто найдите лучшую.
вероятностная

Почему этот ответ сообщества вики?
амеба говорит восстановить монику

10

Как бывший академик, который начал практиковать, я сделаю снимок. Люди используют р-значения, потому что они полезны. Вы не можете видеть это в учебниках примеров бросков монеты. Конечно, они не очень прочны в фундаментальном плане, но, возможно, это не так необходимо, как нам хотелось бы думать, когда мы думаем академически. В мире данных мы окружены буквально бесконечным множеством возможных вещей, на которые можно заглядывать дальше. С вычислениями p-значений все, что вам нужно, как представление о том, что неинтересно, и числовая эвристика для того, какие данные могут быть интересны (ну, плюс модель вероятности для неинтересности). Затем по отдельности или вместе мы можем сканировать вещи довольно просто, отбрасывая большую часть неинтересных. Значение р позволяет нам сказать: «Если я не придаю большого значения тому, чтобы думать об этом иначе,


10

Ваш вопрос является отличным примером частых рассуждений и, на самом деле, вполне естественно. Я использовал этот пример на своих уроках, чтобы продемонстрировать природу проверки гипотез. Я прошу добровольца, чтобы предсказать результаты броска монеты. Независимо от результата, я записываю «правильное» предположение. Мы делаем это неоднократно, пока класс не станет подозрительным.

Теперь у них в голове нулевая модель. Они предполагают, что монета справедлива. Учитывая, что предположение о 50% правильности, когда все справедливо, каждое последующее правильное предположение вызывает больше подозрений, что модель честной монеты неверна. Несколько правильных догадок и они принимают роль случайности. После 5 или 10 правильных предположений класс всегда начинает подозревать, что шанс на честную монету низок. Таким образом, это с характером проверки гипотезы по модели частых.

Это четкое и интуитивное представление о том, как часто участники проверяют гипотезы. Это вероятность наблюдаемых данных, учитывая, что нулевое значение истинно. Это на самом деле вполне естественно, как показывает этот легкий эксперимент. Мы считаем само собой разумеющимся, что модель 50 на 50, но, как показывает свидетельство, я отвергаю эту модель и подозреваю, что в игре есть что-то еще.

Таким образом, если вероятность того, что я наблюдаю, является низкой, учитывая модель, которую я принимаю (значение p), тогда у меня есть некоторая уверенность в том, чтобы отвергнуть мою предполагаемую модель. Таким образом, p-значение является полезным показателем против моей предполагаемой модели с учетом роли случайности.

Отказ от ответственности: я взял это упражнение из давно забытой статьи, как я помню, в одном из журналов ASA.


Бретт, это интересный и отличный пример. Мне кажется, что модель здесь такова, что люди ожидают, что порядок голов и хвостов будет случайным. Например, если я вижу 5 головок подряд, я делаю вывод, что это пример неслучайного процесса. На самом деле, и я могу ошибаться, вероятность того, что Toin Coss (при условии случайности) составляет 50% голов и 50% хвостов, и это полностью не зависит от предыдущего результата. Дело в том, что если мы бросили монету 50000 раз, и первые 25000 были головами, при условии, что оставшиеся 25000 были хвостами, это все равно отражает отсутствие смещения
user2238

@ user2238: Ваше последнее утверждение верно, но это было бы крайне редко. На самом деле, просмотр серии из 5 голов за 5 бросков произойдет всего в 3% случаев, если монета будет честной. Всегда возможно, что ноль истинен, и мы стали свидетелями редкого события.
Бретт

6

«Грубо говоря, р-значение дает вероятность наблюдаемого исхода эксперимента с учетом гипотезы (модели)».

но это не так. Даже грубо - это выдумывает существенное различие.

Модель не указана, как указывает Раскольников, но давайте предположим, что вы имеете в виду биномиальную модель (независимые броски монет, фиксированное неизвестное смещение монет). Гипотеза заключается в утверждении, что соответствующий параметр в этой модели, смещение или вероятность головок, составляет 0,5.

«Имея эту вероятность (p-значение), мы хотим оценить нашу гипотезу (насколько она вероятна)»

Мы действительно можем захотеть сделать такое суждение, но p-значение не поможет (и не было предназначено для этого) помочь нам в этом.

«Но не будет ли более естественным рассчитать вероятность гипотезы с учетом наблюдаемого исхода?»

Возможно, так и будет. Смотрите все обсуждения Байеса выше.

«[...] Теперь мы вычисляем p-значение, которое равно вероятности получить 14 или более голов за 20 бросков монеты. Хорошо, теперь у нас есть эта вероятность (0,058), и мы хотим использовать эту вероятность для судите нашу модель (какова вероятность, что у нас есть честная монета). "

«нашей гипотезы, предполагая, что наша модель верна», но по сути: да. Большие значения р указывают на то, что поведение монеты согласуется с гипотезой, что это справедливо. (Они также, как правило, согласуются с гипотезой ложности, но настолько близки к истине, что у нас нет достаточно данных, чтобы сказать; см. «Статистическая сила».)

«Но если мы хотим оценить вероятность модели, почему мы не рассчитываем вероятность модели с учетом эксперимента? Почему мы рассчитываем вероятность эксперимента с учетом модели (значение p)?»

На самом деле мы не рассчитываем вероятность экспериментальных результатов, учитывая гипотезу в этой установке. В конце концов, вероятность того, что эта гипотеза верна, составляет всего около 0,176, и мы видим ровно 10 голов, и это наиболее вероятное значение. Это не количество интереса вообще.

Также важно, что мы обычно не оцениваем вероятность модели. Как частые, так и байесовские ответы обычно предполагают, что модель верна, и делают выводы о ее параметрах. Действительно, не все Bayesians бы даже в принципе быть заинтересованы в вероятности модели, то есть: вероятность того, что вся эта ситуация была хорошо моделируется биномиального распределения. Они могут делать много проверок моделей, но никогда не спрашивают, насколько вероятен бином в пространстве других возможных моделей. Байесовцы, которым небезразличны Байесовские факторы, заинтересованы, другие не так сильно.


2
Хм, два голоса вниз. Если ответ такой плохой, было бы неплохо иметь комментарий.
сопряженный

Мне понравился этот ответ. Иногда люди голосуют за ответы, потому что они не похожи на учебники, и стараются избавить все сайты от дискуссий, содержащих в себе след здравого смысла или непрофессионалов, таких как описание.
Васс

Я не отрицал, но думаю, что проблема в том, что ваша точка зрения не ясна.
Элвис

6

Примечание к другим превосходным ответам: иногда бывают случаи, когда мы этого не делаем. Например, до недавнего времени они были полностью запрещены в журнале « Эпидемиология» - теперь их просто «сильно обескураживают», и редакционная коллегия уделяет огромное количество места их обсуждению здесь: http: //journals.lww. ком / Epidem / страницы / collectiondetails.aspx? TopicalCollectionId = 4



2

Определите вероятность . Я серьезно. Прежде чем мы продвинемся дальше, нам нужно договориться об условиях.

DM

P(M|D)P(M,D)

106/28109

В практическом мире проблемы с, скажем, медицинскими условиями и тем, как они работают, вы, возможно, не сможете придумать ни одного из этих компонентов совместного распределения, и не можете подготовить.

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

Помимо трудностей в разговоре о том, что именно являются правильными моделями, байесовские методы имеют ограниченные способы борьбы с ошибочной спецификацией моделей. Если вам не нравятся ошибки Гаусса или вы не верите в независимость бросков монет (ваша рука устает после первых 10000 бросков, поэтому вы не бросаете ее так же высоко, как первые 1000 раз, что может повлиять на вероятности), все, что вы можете сделать в байесовском мире, - это построить более сложную модель - пробитие априорных проб для нормальных смесей, сплайны вероятностей во времени, что угодно. Но не существует прямого аналога стандартным ошибкам Хубер-сэндвича, которые явно признают, что модель может быть неверно определена, и готовы учесть это.

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

Но если мы хотим оценить вероятность модели, почему бы нам не рассчитать вероятность модели с учетом эксперимента?

Потому что мы не знаем как. Возможно бесконечное количество моделей, и их вероятностное пространство не определено.

Вот практический пример. Допустим, я хочу прогнозировать ВВП США. Я получаю временные ряды и подгоняю модель. Какова вероятность того, что эта модель верна?

Δlnyt=μ+et
μet

введите описание изображения здесь

lnyt=ct+et
c

μ

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.