Байесовский против частых интерпретаций вероятности

37

Может ли кто-нибудь дать краткое изложение различий между байесовским и частотным подходом к вероятности?

Из того, что я понимаю:

Представление «частые лица» состоит в том, что данные представляют собой воспроизводимую случайную выборку (случайную переменную) с определенной частотой / вероятностью (которая определяется как относительная частота события, когда число испытаний приближается к бесконечности). Базовые параметры и вероятности остаются постоянными в течение этого повторяемого процесса, и что изменение обусловлено изменчивостью $X_n$ а не распределением вероятности (которое фиксировано для определенного события / процесса).

Байесовское представление состоит в том, что данные являются фиксированными, в то время как частота / вероятность для определенного события может измениться, означая, что параметры распределения изменяются. По сути, полученные вами данные изменяют предыдущее распределение параметра, который обновляется для каждого набора данных.

Мне кажется, что частотный подход более практичен / логичен, так как кажется разумным, что события имеют определенную вероятность и что вариация находится в нашей выборке.

Кроме того, большая часть анализа данных, полученных в ходе исследований, обычно проводится с использованием частотного подхода (т. Е. Доверительных интервалов, проверки гипотез с использованием p-значений и т. Д.), Поскольку это легко понять.

Мне было просто интересно, может ли кто-нибудь дать мне краткое изложение их интерпретации байесовского и частичного подходов, включая байесовские статистические эквиваленты частичного p-значения и доверительного интервала. Кроме того, приветствуются конкретные примеры того, где один метод предпочтительнее другого.

probability bayesian frequentist

— BYS2
источник

1

В некоторых местах вас будет атаковать разъяренная толпа, если вы скажете, что частый подход к статистическому выводу более практичен. (Хорошо, возможно, в этом утверждении есть некоторая гипербола.) Я не согласен с тем, что доверительные интервалы легче понять, чем апостериорные вероятностные интервалы. (Во всяком случае, смотрите мой ответ ниже. Я думаю, что это прямо к сути вопроса, хотя нет никакой математики, кроме того, чтобы знать, что такое .)

1 / 2

$1/2$

— Майкл Харди

@DilipSarwate, я буду помнить об этом в следующий раз. но похоже, что я получил несколько хороших ответов на этот раз, так что, возможно, я постараюсь закончить здесь: D

— BYS2

См. Также stats.stackexchange.com/q/173056/35989

— Тим

27

В частом подходе утверждается, что единственный смысл, в котором вероятности имеют значение, - это предельное значение числа успехов в последовательности испытаний, т.е.

p = lim_{n \to \infty} \frac{k}{n}

$p = \lim_{n\to\infty} \frac{k}{n}$

где - количество успехов, а - количество испытаний. В частности, не имеет смысла связывать распределение вероятностей с параметром . $k$ $n$

Например, рассмотрим выборки из распределения Бернулли с параметром (т.е. они имеют значение 1 с вероятностью $X_1, \dots, X_n$ $p$ $p$ и 0 с вероятностью ). Мы можем определить частоту успеха выборки, чтобы быть $1-p$

\hat{p} = \frac{X_{1} + \dots + X_{n}}{n}

$\hat{p} = \frac{X_1+\cdots +X_n}{n}$

и говорить о распределении обусловливающих значений , но это не имеет смысла , чтобы инвертировать этот вопрос и начать говорить о распределении вероятностей $\hat{p}$ $p$ $p$ обусловливающего наблюдаемого значения . В частности, это означает, что когда мы вычисляем доверительный интервал, мы интерпретируем концы доверительного интервала как случайные величины и говорим о «вероятности того, что интервал включает в себя истинный параметр», а не о «вероятности того, что параметр является внутри доверительного интервала ». $\hat{p}$

В байесовском подходе мы интерпретируем распределения вероятностей как количественную оценку нашей неопределенности относительно мира. В частности, это означает, что теперь мы можем осмысленно говорить о вероятностных распределениях параметров, поскольку, хотя параметр является фиксированным, наше знание его истинного значения может быть ограничено. В приведенном выше примере, мы можем инвертировать распределение вероятностей с помощью закона Байеса, чтобы дать $f(\hat{p}\mid p)$

\overset{posterior}{\overset{⏞}{f (p ∣ \hat{p})}} = \underset{likelihood ratio}{\underset{⏟}{\frac{f (\hat{p} ∣ p)}{f (\hat{p})}}} \overset{prior}{\overset{⏞}{f (p)}}

$\overbrace{f(p\mid \hat{p})}^\text{posterior} = \underbrace{\frac{f(\hat{p}\mid p)}{f(\hat{p})}}_\text{likelihood ratio} \overbrace{f(p)}^\text{prior}$

Загвоздка в том, что мы должны ввести предварительное распределение в наш анализ - это отражает наше мнение о значении прежде чем мы увидим фактические значения . Роль предшествующего часто подвергается критике в частом подходе, так как утверждается, что он привносит субъективность в мир строгой и объектной вероятности. $p$ $X_i$

В байесовском подходе больше не говорится о доверительных интервалах, но вместо вероятных интервалов, которые имеют более естественную интерпретацию - при 95% вероятном интервале мы можем присвоить 95% вероятности того, что параметр находится внутри интервала.

— Крис Тейлор
источник

6

С другой стороны, одна критика частого подхода заключается в том, что он не согласуется с тем, как люди думают о вероятности. Подумайте, как люди говорят о «вероятности» разовых событий, таких как вымирание динозавров, или о «вероятности» «определенности», такой как восход солнца завтра…

14

Также было бы полезно упомянуть, что разрыв между частотным и байесовским подходами на практическом уровне не так велик: любой метод частых ответов, который дает полезные и самосогласованные результаты, как правило, можно интерпретировать как байесовский, и наоборот . В частности, пересчет вычисления частоты в байесовских терминах, как правило, дает правило для вычисления апостериорного значения с учетом некоторого конкретного априора . Тогда можно спросить: «Ну, а что, на самом деле, разумно предположить?»

— Илмари Каронен

Спасибо за этот ответ, он соответствует моему общему пониманию. Тем не менее, мне было бы интересно, если бы вы могли уточнить одну вещь, как бы вы нашли вероятность успеха данных / выборки (f (p-hat)) в формуле закона Байе? Я прочитал некоторые проработанные примеры, и я в целом понимаю, как получить f (p-hat | p), а предшествующий f (p), но f (p-hat) ускользает от меня до сих пор. Если бы у вас были ссылки на некоторые ресурсы, это было бы потрясающе: D. Благодарность!

— BYS2

@IlmariKaronen. Итак, вы говорите, что если бы у меня было исследование, которое дало определенные результаты, выраженные в доверительных интервалах, я мог бы преобразовать данные и вместо этого провести байесовский анализ? и результаты будут более или менее согласованы?

— BYS2

То, что говорит @Karonen, не совсем точно. Двумя наиболее распространенными частотными методами являются точечные оценки (как правило, оценка максимального правдоподобия) и проверки гипотез, и ни один из них не может дать естественной байесовской интерпретации.

— Жюль

20

Вы правы в своей интерпретации вероятности часто встречающегося: случайность в этой настройке просто из-за неполной выборки. С байесовской точки зрения вероятности являются «субъективными» в том смысле, что они отражают неопределенность агента относительно мира. Не совсем правильно говорить, что параметры распределений «меняются». Поскольку мы не располагаем полной информацией о параметрах, наша неопределенность в отношении них изменяется по мере сбора дополнительной информации.

Обе интерпретации полезны в приложениях, и что более полезно, зависит от ситуации. Вы можете проверить блог Эндрю Гельмана для идей о байесовских приложениях. Во многих ситуациях то, что байесовцы называют «априорами», часто называют «регуляризацией», и поэтому (с моей точки зрения) волнение может покинуть комнату довольно быстро. Фактически, согласно теореме Бернштейна-фон Мизеса, байесовский и частотный выводы фактически асимптотически эквивалентны при довольно слабых предположениях (хотя, в частности, теорема не выполняется для бесконечномерных распределений). Вы можете найти множество ссылок об этом здесь .

Поскольку вы просили интерпретации: я думаю, что точка зрения Frequentist имеет большой смысл при моделировании научных экспериментов, как это было задумано. Для некоторых приложений в машинном обучении или для моделирования индуктивного мышления (или обучения) байесовская вероятность имеет для меня больше смысла. Есть много ситуаций, в которых моделирование события с фиксированной, «истинной» вероятностью кажется неправдоподобным.

Для игрушечного примера, возвращающегося к Лапласу , рассмотрим вероятность того, что завтра взойдет солнце. С точки зрения Frequentist, мы должны установить что-то вроде бесконечного множества вселенных, чтобы определить вероятность. Как байесовцы, существует только одна вселенная (или, по крайней мере, их не должно быть много). Наша неуверенность в отношении восхода солнца подавляется из-за нашей очень, очень сильной предварительной веры в то, что оно снова взойдет завтра.

— Ага
источник

17

Байесовская интерпретация вероятности является интерпретацией степени веры.

$1/2$ .

$1/2$

— Майкл Харди
источник

2

Вероятно, нет лучшего места для размышления об ограничениях более узкого частотного подхода по сравнению с общностью байесовского подхода (расширение логики), чем в классической работе RT Cox.

— ГВР,

2

Кокс также написал книгу об этом под названием « Алгебра вероятного вывода» , опубликованную Джонсом Хопкинсом. @gwr

$\qquad$

— Майкл Харди

1

Ян Хакинг хорошо сказал об этом в своей книге «Введение в вероятности и индуктивную логику». Он сказал: «Байесовский способен привязать личные вероятности или степени веры к отдельным предложениям. Догматик с жесткой частотой считает, что вероятности могут быть привязаны только к серии событий».

— Buttons840

9

Крис дает хорошее упрощенное объяснение, которое правильно разграничивает два подхода к вероятности. Но частая теория вероятностей - это больше, чем просто взгляд на долгосрочную долю успехов. Мы также рассматриваем данные, выбранные случайным образом из распределения, и оцениваем параметры распределения, такие как среднее значение и дисперсию, используя определенные типы средних значений данных (например, для среднего значения это среднее арифметическое наблюдений. Теория частот часто связывает вероятность с оценкой, которая называется распределением выборки.

В теории частот мы можем показать для таких параметров, как среднее значение, взятые путем усреднения из выборок, что оценка будет сходиться к истинному параметру. Распределение выборки используется для описания того, насколько близка оценка к параметру для любого фиксированного размера выборки n. Закрытие определяется мерой точности (например, среднеквадратичная ошибка).

Крис указывает на любой параметр, такой как среднее, байесовский придает ему предварительное распределение вероятностей. Затем с учетом данных правило Байеса используется для вычисления апостериорного распределения для параметра. Для байесовского метода все выводы о параметре основаны на этом апостериорном распределении.

Частые специалисты строят доверительные интервалы, которые являются интервалами вероятных значений параметра. Их построение основано на вероятности того, что если процесс, использованный для генерации интервала, был повторен много раз для независимых выборок, то доля интервалов, которая фактически будет включать в себя истинное значение параметра, будет, по крайней мере, некоторый заранее заданный уровень достоверности (например, 95% ).

Байесовцы используют апостериорное распределение для параметра, чтобы построить вероятные области. Это просто области в пространстве параметров, в которые интегрируется заднее распределение, чтобы получить заранее заданную вероятность (например, 0,95). Достоверные регионы интерпретируются байесовцами как регионы с высокой (например, предварительно заданной 0,95) вероятностью включения истинного значения параметра.

— Майкл Р. Черник
источник

1

Достоверные регионы интерпретируются байесовцами как регионы с высокой (например, предварительно заданной 0,95) вероятностью включения истинного значения параметра . Как это возможно, если параметр является случайной величиной?

@Procrastinator Хорошо, возможно, вы бы предпочли, чтобы я просто сказал, что он покрывает заранее заданную долю распределения параметров. Но если X - случайная переменная с распределением f, и мы строим для нее вероятную область, то эта область представляет вероятность того, что реализация случайной величины будет лежать в этой области.

— Майкл Р. Черник

Я согласен с этим объяснением. Важно уточнить, что реализация случайной величины не является истинным значением параметра.

@Procrastinator, это интересный момент, который вы подняли. Однако мое понимание байесовской вероятности состоит в том, что многие байесовцы согласны с классическими статистиками в том, что существует единственное ИСТИННОЕ значение рассматриваемого параметра (оно является фиксированным, но неизвестным). Это неопределенность в отношении этого параметра, которая распространяется из-за нашего несовершенного состояния знаний. Так что, если вы думаете об этом таким образом, то первоначальное утверждение Майкла Черника верно, не так ли?

— BYS2

2

θ_{0} = 1

$\theta_0=1$

(1, 100)

$(1,100)$

2

С точки зрения «реального мира» я нахожу одно существенное различие между частым и классическим или байесовским «решением», которое применимо как минимум к трем основным сценариям. Разница в выборе методологии зависит от того, нужно ли вам решение, на которое влияет вероятность населения, или решение, на которое влияет индивидуальная вероятность. Примеры ниже:

Если существует известная 5-процентная вероятность того, что мужчины старше 40 лет умрут в течение определенного года и потребуют выплаты по страхованию жизни, страховая компания может использовать процент 5% населения, чтобы оценить свои расходы, но сказать, что каждый отдельный мужчина старше 40 лет имеет только вероятность смерти 5% ... бессмысленна ... Потому что вероятность смерти 100% у 5% - это частый подход. На индивидуальном уровне событие либо происходит (вероятность 100%), либо не происходит (вероятность 0%). Однако на основе этой ограниченной информации невозможно предсказать людей, которые имеют 100% вероятность смерти, и % «усредненной» вероятности населения бесполезен на индивидуальном уровне.
Приведенный выше аргумент в равной степени относится и к пожарам в зданиях, поэтому разбрызгиватели необходимы во всех зданиях в населении.
Оба приведенных выше аргумента в равной степени применимы и к бриджам, повреждениям или «взломам» информационных систем. Процент населения бесполезен, поэтому все системы должны быть защищены.

— Джеймс Дж Финн
источник

2

Я не признаю частый подход ни в одном из этих трех случаев. Кажется, что все они зависят от ретроспективной и, следовательно, бесполезной концепции вероятности, которая не используется в классических моделях. Например, утверждение, что «событие либо происходит ... либо не происходит», тривиально верно, но не связано с вероятностями.

— whuber

0

Выбор интерпретации зависит от вопроса. Если вы хотите узнать шансы в азартной игре, классическая интерпретация решит вашу проблему, но статистические данные бесполезны, поскольку у честных костей нет памяти.

Если вы хотите предсказать будущее событие, основываясь на прошлом опыте, частая интерпретация является правильной и достаточной.

Если вы не знаете, произошло ли прошлое событие, и хотите оценить вероятность того, что оно произошло, вы должны принять свои прежние убеждения, то есть то, что вы уже знаете о вероятности того или иного события, и обновить свое мнение, когда приобретете новые данные.

Поскольку вопрос касается степени веры, и у каждого человека может быть разное представление о приорах, интерпретация обязательно субъективна, она же байесовская.

— Авиэль Рой-Шапира
источник