Куда делись частые-байесовские дебаты?

59

Мир статистики был разделен между частыми лицами и байесовцами. В наши дни кажется, что все делают немного и того, и другого. Как это может быть? Если разные подходы подходят для разных задач, почему отцы-основатели статистики не видели этого? В качестве альтернативы, дебаты были выиграны частыми лицами и истинные субъективные байесовцы перешли к теории принятия решений?

— JohnRos
источник

13

Я сделал это CW на предпосылке, что вряд ли будет один авторитетный или лучший ответ. (Не стесняйтесь уговаривать любой из модов иначе, если вы не согласны!) Можно спорить о закрытии вопроса на том основании, что он потенциально спорный, но (ИМХО) он по теме и интересен. Однако любые спорные, полемические или неподдерживаемые ответы, в случае их появления, будут удалены без каких-либо дополнительных объяснений.

— whuber

58

Я на самом деле слегка не согласен с предпосылкой. Все являются байесовскими, если они действительно имеют распределение вероятностей, переданное им ранее. Проблема возникает, когда они этого не делают, и я думаю, что по этой теме все еще существует довольно значительный разрыв.

Сказав это, тем не менее, я согласен, что все больше и больше людей менее склонны вести священные войны и просто продолжать делать то, что кажется уместным в любой конкретной ситуации.

Я бы сказал, что с развитием профессии обе стороны поняли, что в подходах другой стороны есть свои достоинства. Байесовцы поняли, что для оценки того, насколько хороши байесовские процедуры, если их использовать снова и снова (например, действительно ли этот 95% вероятный интервал (ДИ) содержит истинный параметр около 95% времени?), Требуется частый взгляд. Без этого нет калибровки "95%" по любому реальному числу. Грубости? Построение модели посредством итеративной подгонки и т. Д.? Идеи, которые возникли в частом мире и были адаптированы байесовцами, начиная с конца 1980-х или около того. Частые специалисты поняли, что регуляризация была хорошей, и используют ее довольно часто в наши дни - и байесовские априоры можно легко интерпретировать как регуляризацию. Непараметрическое моделирование с помощью кубических сплайнов с функцией штрафа? Твой штраф мой приор! Теперь мы все можем ладить.

Другое важное влияние, я полагаю, заключается в ошеломляющем улучшении доступности высококачественного программного обеспечения, которое позволит вам быстро проводить анализ. Это состоит из двух частей - алгоритмы, например, выборка Гиббса и Metropolis-Hastings, и само программное обеспечение, R, SAS, ... Я мог бы быть более чисто байесовским, если бы мне пришлось писать весь мой код на C (я просто у меня не было бы времени попробовать что-нибудь еще), но я использую gam в пакете mgcv в R каждый раз, когда моя модель выглядит так, как будто я могу вписать ее в эту среду без особых усилий, и я лучший статистик для этого. Знакомство с методами вашего оппонента и понимание того, сколько усилий он может сохранить / улучшить качество, которое он может предоставить, чтобы использовать их в некоторых ситуациях, даже если они могут не вписываться на 100% в вашу среду по умолчанию для размышлений о проблеме,

— jbowman
источник

5

@Dikran: Я согласен, с оговоркой, что я лично придумаю слово выбор оппонента . :)

— кардинал

2

@ Cardinal Я не знаю, заводить коллег можно весело (до тех пор, пока вы оба знаете лучше, чем на самом деле!)

— Dikran Marsupial

3

@Dikran - Спасибо за понимание! Я не чувствовал, что слово «противник» тоже было правильным словом, но я все равно вставил его отчасти ради забавы, а отчасти потому, что я не мог придумать лучшего, который все еще сохранял бы какое-то чувство противостояния.

— jbowman

5

@jbowman: Обратите внимание, что Байесовская статистика, а-ля Гуд, Линдли или ДеФинетти, означает, что предшествующее является субъективным / умственным, а не объективным / физическим. По этой причине я бы не согласился с: "... все байесовские". Вот почему Роббинсу пришлось использовать термин «эмпирический байесовский» при представлении «новой» идеи частого априора. Я бы согласился, однако, что сегодня, используя многоуровневую схему выборки, таким образом, имея частый априор, было бы достаточно, чтобы квалифицироваться как «Байесовская статистика».

— JohnRos

2

@JohnRos - то, о чем я думал, было скорее классическим «какова вероятность того, что у вас туберкулез, учитывая, что вы прошли положительный тест на туберкулез?» ситуация. (Я предполагаю, что) немногие статистики-частники будут возражать против использования какой-либо подходящей базовой частоты туберкулеза в качестве предварительной вероятности и ее обновления с вероятностью теста. Конечно, они все еще будут возражать против идеи их субъективности, и с другой стороны я мог бы увидеть линию рассуждений, которая бы утверждала, что она субъективна, несмотря на данные, стоящие за ней, так что точка взята (+1).

— jbowman

35

$p$

Существуют противоречивые проявления в отношении того, «кто выиграл дискуссию» в профессии статистики. С одной стороны, состав среднего статистического отдела таков, что в большинстве мест вы найдете 10-15 главных игроков против 1-2 байесовских, хотя некоторые отделы являются чисто байесовскими, без главных операторов вообще, за исключением, вероятно, консультативных должностей. (Гарвард, Герцог, Карнеги-Меллон, Британская Колумбия, Монреаль в Северной Америке; я менее знаком с европейской сценой). С другой стороны, вы увидите, что в таких журналах, как JASA или JRSS, вероятно, 25-30% статей являются байесовскими. В некотором смысле, байесовский ренессанс может быть чем-то вроде взрыва газет ANOVA в 1950-х годах: тогда люди думали, что практически любая статистическая проблема может быть сформулирована как проблема ANOVA; прямо сейчас,

У меня такое ощущение, что прикладные области не мешают выяснять философские детали, а просто идут с тем, с чем легче работать. Байесовская методология слишком сложна: помимо статистики, вам также необходимо изучить искусство вычислений (настройка сэмплера, блокировка, диагностика сходимости, бла-бла-бла) и быть готовым защищать свои априоры (если вы будете использовать объективные априоры, или вы должны использовать информативные априоры, если поле в значительной степени зависит от скорости света 3e8 м / с, или даже от того, влияет ли выбор априора на правильность вашего апостериорного положения или нет). Таким образом, в большинстве медицинских или психологических или экономических приложений вы увидите основные подходы в статьях, написанных исследователями по существу,

Одной из областей, где, как мне кажется, байесовские рамки все еще не хватает, является диагностика моделей, и это важная область для практиков. В байесовском мире для диагностики модели необходимо построить более сложную модель и выбрать ту, которая лучше подходит по байесовскому фактору или BIC. Поэтому, если вам не нравится допущение нормальности для вашей линейной регрессии, вы можете построить регрессию с ошибками Стьюдента и позволить данным сгенерировать оценку степеней свободы, или вы можете стать все причудливыми и иметь процесс Дирихле для своего ошибочные условия и сделать несколько скачков MH между различными моделями. Основной подход будет заключаться в построении графика QQ из изученных остатков и удаления выбросов, и это, опять же, намного проще.

Я отредактировал главу в книге об этом - см. Http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . Это очень архетипический документ, в котором содержится около 80 ссылок на эту дискуссию, и все они поддерживают байесовскую точку зрения. (Я попросил автора расширить его в пересмотренной версии, которая много говорит об этом :)). Джим Бергер из Duke, один из ведущих теоретиков Байеса, прочитал ряд лекций и написал ряд очень вдумчивых статей на эту тему.

— Stask
источник

14

Есть веская причина для того, чтобы по-прежнему иметь и то, и другое: хороший мастер захочет выбрать лучший инструмент для поставленной задачи, а методы Байеса и часто используются в тех случаях, когда они являются лучшим инструментом для работы.

Тем не менее, часто используется неправильный инструмент для этой работы, потому что статистика часто используются для подхода «статистической кулинарной книги», который облегчает ее применение в науке и технике, чем их байесовские аналоги, даже несмотря на то, что байесовские методы дают более прямой ответ поставленный вопрос (как правило, это то, что мы можем вывести из конкретной выборки данных, которые у нас есть на самом деле). Я не очень поддерживаю это, поскольку подход «поваренной книги» приводит к использованию статистики без четкого понимания того, что вы на самом деле делаете, поэтому такие вещи, как ошибка р-значения, возникают снова и снова.

Однако с течением времени программные инструменты для байесовского подхода будут совершенствоваться, и они будут использоваться чаще, как справедливо говорит jbowman.

Я склонен к байесовскому наклонению (мне кажется, это имеет для меня гораздо больший смысл, чем подход с использованием частот), однако в итоге я использую статистику с использованием частот в своих работах, отчасти потому, что у меня возникнут проблемы с рецензентами, если я буду использовать байесовскую статистику, поскольку они будет "нестандартным".

И, наконец, (немного языком в щеку; о), чтобы процитировать Макса Планка «Новая научная истина не торжествует, убеждая своих противников и заставляя их увидеть свет, а скорее потому, что их противники в конечном счете умирают, и вырастает новое поколение, которое знакомо». с этим."

— Дикран Сумчатый
источник

10

Я не думаю, что частотники и байесовцы дают разные ответы на одни и те же вопросы. Я думаю, что они готовы ответить на разные вопросы . Поэтому я не думаю, что имеет смысл много говорить об односторонней победе или даже говорить о компромиссе.

$\theta$

Однако мы не можем выбирать, на какие вопросы отвечать. Чтобы сделать полезные выводы об окружающем мире, нам иногда приходится отвечать на вопросы, обозначенные буквой B, а это означает использование априора.

В идеале, учитывая оценку, вы бы сделали тщательный анализ. Вы можете использовать предварительную версию, но было бы неплохо, если бы вы могли доказать хорошие вещи в своей оценке, которые не зависят ни от каких предыдущих. Это не значит, что вы можете отказаться от предыдущего, может быть, действительно интересные вопросы требуют предварительного.

Все согласны с тем, как ответить на вопросы в F. Беспокойство в том, действительно ли «интересные» вопросы находятся в F или B?

$\mathcal{P}(-|S) = 0$ $\mathcal{P}(+|H) = 0.05$

У нас есть кусок карты, и тестирующая машина напишет + или - на одной стороне карты. Представьте, если хотите, что у нас есть оракул, который каким-то образом знает правду, и этот оракул записывает истинное состояние, H или S, на другой стороне карты, перед тем как положить карту в конверт.

Как врач, прошедший статистическую подготовку, что мы можем сказать о карточке в envolope, прежде чем открывать карточку? Следующие утверждения могут быть сделаны (они в F выше):

$\mathcal{P}(+|S) = 1$
$\mathcal{P}(-|H) = 0.95$
$\mathcal{P}( (-,S) \cup (+,H) ) \geq 0.95$

$\mathcal{P}( (-,S) )$ $\mathcal{P}( (+,H) )$ $\mathcal{P}(S)$

Это так далеко, как мы можем пойти так далеко. Прежде чем вскрывать конверт , мы можем сделать очень позитивные заявления о точности теста. Существует (как минимум) 95% вероятность того, что результат теста соответствует истине.

Но что происходит, когда мы действительно открываем карту? Учитывая, что результат теста положительный (или отрицательный), что мы можем сказать о том, здоровы они или больны?

$\mathcal{P}(S)$ $\mathcal{P}(S)$

В этом простом примере ясно, что все с отрицательным результатом теста здоровы. Там нет ложных негативов, и, следовательно, каждый статистик с удовольствием отправит этого пациента домой. Поэтому нет смысла платить за совет статистика, если результат теста не был положительным .

Три вышеприведенных пункта верны и довольно просты. Но они также бесполезны! Действительно интересный вопрос в этой заведомо надуманной модели:

P (S | +)

$\mathcal{P}(S|+)$

$\mathcal{P}(S)$

Я не отрицаю, что это, возможно, слишком упрощенная модель, но она действительно демонстрирует, что, если мы хотим сделать полезные заявления о здоровье этих пациентов, мы должны начать с некоторого предварительного мнения об их здоровье.

— Аарон МакДейд
источник

2

H

$H$

+

$+$

5 %

$5\%$

-

$-$

95 %

$95\%$

P (- | S) = 0.95

$P(−|S)=0.95$

P (- | S) = 0

$P(-|S)=0$

1

P (- | H) = 0.95

$\mathcal{P}(-|H) = 0.95$

P (- | S) = 0.95

$\mathcal{P}(-|S) = 0.95$

2

P (S)

$P(S)$

+

$+$

20

$20$

P (S)

$P(S)$

1

P (S)

$P(S)$

P (S)

$P(S)$

6

Как вы увидите, довольно часто ведутся дебаты и байесовские дебаты. На самом деле, я думаю, что это жарче, чем когда-либо, и менее догматично. Вас может заинтересовать мой блог: http://errorstatistics.com

— Mayo
источник

2

Я знаком с вашей работой по сочинениям Шализи и Гельмана. Я обязательно буду следить за блогом. И все же мне интересно, является ли «байесовский» Гельмана таким же, как «байесовский»

— ДеФинетти

1

Многие люди (кроме специалистов-экспертов), которые считают себя частыми людьми , на самом деле являются байесовскими. Это делает дебаты немного бессмысленными. Я думаю, что байесианство победило, но все еще есть много байесов, которые думают, что они часты. Есть люди, которые думают, что они не используют приоры, и, следовательно, они считают себя частыми. Это опасная логика. Это не столько о приорах (одинаковых или неоднородных), реальная разница более тонкая.

(Формально я не работаю в отделе статистики; мой опыт работы - математика и информатика. Я пишу из-за трудностей, с которыми я пытался обсудить эту «дискуссию» с другими статистиками, и даже с некоторыми ранними работами статистикам.)

MLE на самом деле является байесовским методом. Некоторые люди скажут: «Я частый человек, потому что я использую MLE для оценки своих параметров». Я видел это в рецензируемой литературе. Это бессмыслица и основана на этом (недосказанном, но подразумеваемом) мифе о том, что частый человек - это тот, кто использует единообразный априор вместо неоднородного априорного).

$\mu = 0$ $\theta$

$X \equiv N(\mu = 0, \sigma^2 = \theta)$

$x$ $\theta$ $\theta$ $x$

$f(x,\theta) = \mathrm{P}_{\sigma^2=\theta} (X=x) = \frac{1}{\sqrt{2\pi \theta}} e^{-\frac{x^2}{2\theta}}$

$x$ $\theta$

Тепловая карта

$\theta$ $\theta$ $x$

Это различие между горизонтальными и вертикальными срезами имеет решающее значение, и я обнаружил, что эта аналогия помогла мне понять частый подход к смещению .

Байесовский кто - то , кто говорит

$\theta$ $f(x,\theta)$

$g(\theta)$

$\theta$ $f(x,\theta)g(\theta)$

Таким образом, байесовский метод фиксирует x и смотрит на соответствующий вертикальный срез в этом контурном графике (или в варианте графика, включающем предыдущий). В этом срезе площадь под кривой не должна быть 1 (как я говорил ранее). Байесовский 95% вероятный интервал (CI) - это интервал, который содержит 95% доступной площади. Например, если область равна 2, то область под байесовским индексом должна составлять 1,9.

$\theta$

$\theta$

$\mathcal{N}(\mu=0, \sigma^2 = \theta)$ $\theta$ $x$ $-3\sqrt\theta$ $+3\sqrt\theta$

$\theta$

Это не единственный способ построить частый CI, он даже не хороший (узкий), но на мгновение потерпите меня.

Лучший способ интерпретировать слово «интервал» - это не интервал на 1-й линии, а думать о нем как об области на 2-й плоскости выше. «Интервал» - это подмножество 2-й плоскости, а не какой-либо 1-й линии. Если кто-то предлагает такой «интервал», мы должны проверить, является ли «интервал» действительным на уровне 95% достоверности / вероятности.

Частый участник проверит правильность этого «интервала», рассматривая каждый горизонтальный срез по очереди и просматривая область под кривой. Как я уже говорил, площадь под этой кривой всегда будет одна. Важнейшим требованием является, чтобы площадь в пределах «интервала» была не менее 0,95.

Байесовский проверит правильность, взглянув на вертикальные срезы. Опять же, площадь под кривой будет сравниваться с подрайоном, который находится под интервалом. Если последний составляет не менее 95% от первого, то «интервал» является действительным 95% -ным байесовским вероятным интервалом.

Теперь, когда мы знаем, как проверить, является ли определенный интервал «действительным», вопрос заключается в том, как выбрать лучший вариант среди допустимых. Это может быть черным искусством, но обычно вам нужен самый узкий интервал. Оба подхода имеют тенденцию соглашаться - вертикальные срезы рассматриваются, и цель состоит в том, чтобы сделать интервал как можно более узким в пределах каждого вертикального среза.

Я не пытался определить максимально узкий интервал доверительной вероятности в приведенном выше примере. Посмотрите комментарии @cardinal ниже для примеров более узких интервалов. Моя цель - не найти лучшие интервалы, а подчеркнуть разницу между горизонтальными и вертикальными срезами при определении достоверности. Интервал, который удовлетворяет условиям 95-процентного доверительного доверительного интервала, обычно не удовлетворяет условиям 95-процентного байесовского доверительного интервала, и наоборот.

Оба подхода требуют узких интервалов, т.е. при рассмотрении одного вертикального среза мы хотим, чтобы интервал (1-d) в этом срезе был как можно более узким. Разница заключается в том, как обеспечивается соблюдение 95% - частый сотрудник будет смотреть только на предлагаемые интервалы, когда 95% площади каждого горизонтального среза находится под интервалом, тогда как байесовский будет настаивать на том, чтобы каждый вертикальный срез был таким, чтобы 95% его площади под интервалом.

Многие не статистики не понимают этого, и они сосредоточены только на вертикальных срезах; это делает их байесовцами, даже если они думают иначе.

— Aaron McDaid
источник

3

(-1) Я считаю, что этот пост показывает некоторые фундаментальные недоразумения по нескольким пунктам. Трудно понять даже с чего начать.

— кардинал

1

X^{2} / θ \sim χ_{1}^{2}

$X^2/\theta \sim \chi_1^2$

θ

$\theta$

({\hat{θ}}_{ℓ}, {\hat{θ}}_{u})

$\newcommand{\th}{\hat\theta}(\th_{\ell},\th_u)$

P (θ \in ({\hat{θ}}_{ℓ}, {\hat{θ}}_{u})) = 1 - α

$\mathbb P(\theta \in (\th_{\ell},\th_u)) = 1-\alpha$ $\theta$

X

$X$

X^{2} / θ

$X^2/\theta$

— кардинал

1

(продолжение) Один из вариантов - где обозначает й квантиль распределения . Почти любой частый участник использовал бы вместо этого одинаково действительный интервал поскольку он бесконечно уже и его легко построить. Однако этот последний интервал даже не самый короткий, который можно найти с помощью простой численной процедуры. Таким образом , основная предпосылка аргумента в ответе, кажется, полностью упускает суть.

[X^{2} / q_{1 - α}, \infty)

$[X^2/q_{1-\alpha},\infty)$

q_{b}

$q_{b}$

b

$b$

χ_{1}^{2}

$\chi_1^2$

[X^{2} / q_{1 - α / 2}, X^{2} / q_{α / 2}]

$[X^2/q_{1-\alpha/2},X^2/q_{\alpha/2}]$

— кардинал

Привет, @cardinal, я понимаю твои мысли в последних двух комментариях. На самом деле, я думаю, что ваши аргументы согласуются с тем, что я сказал :-) Хорошо, существует ряд различных способов построения доверительных интервалов для частых. Вы принимаете метод, который я описал, действителен. И вы (разумно) указываете, что мой метод не самый узкий. Я думаю, что ваш самый первый комментарий был не очень полезным.

— Аарон МакДейд

2

@cardinal, подумав, я согласен с тем, что конец моего ответа бесполезен и в основном неправильный, я приведу это в порядок. Это отвлекает меня от моей основной мысли, заключающейся в том, что многие люди, не относящиеся к отделу статистики, которые твердо убеждены в этом, не понимают принципиальной разницы между этими двумя подходами: оба подхода, как представляется, имеют хорошую область под кривой (по крайней мере, 95% ), но разница в том, брать ли горизонтальный (Frequentist) или вертикальный (Bayesian) срез по тепловой карте. Я прямо здесь, и стоит ли здесь говорить об этом?

— Аарон МакДейд