очевидно, в байесовском факторе каким-то образом используются вероятности, которые представляют вероятность каждой модели, интегрированной по всему ее пространству параметров (т.е. не только в MLE). Как обычно достигается эта интеграция? Действительно ли кто-то просто пытается вычислить вероятность для каждой из тысяч (миллионов?) Случайных выборок из пространства параметров, или существуют аналитические методы для интеграции вероятности через пространство параметров?
Во-первых, любая ситуация, когда вы рассматриваете такой термин, как для данных и модели , считается моделью вероятности . Это часто является хлебом с маслом любого статистического анализа, частого или байесовского, и именно эта часть, как предполагается, предполагает ваш анализ, является или хорошей, или плохой. Таким образом, байесовские факторы не делают ничего принципиально отличного от отношения правдоподобия.P(D|M)DM
Важно поставить байесовские факторы в правильное положение. Скажем, когда у вас есть две модели, и вы переходите от вероятностей к вероятностям, тогда байесовские факторы действуют как оператор на основе предыдущих убеждений:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
Реальная разница заключается в том, что отношения правдоподобия вычисляются дешевле и, как правило, концептуально проще определить. Вероятность в MLE - это просто точечная оценка числителя и знаменателя байесовского коэффициента соответственно. Как и большинство частых конструкций, его можно рассматривать как особый случай байесовского анализа с надуманным априором, к которому трудно добраться. Но в основном это произошло потому, что его можно анализировать и легче вычислить (в эпоху, когда возникли приближенные байесовские вычислительные подходы).
Что касается вычислений, то да: вы будете оценивать различные интегралы правдоподобия в байесовской системе с помощью крупномасштабной процедуры Монте-Карло практически в любом случае, представляющем практический интерес. Существуют некоторые специализированные симуляторы, такие как GHK, которые работают, если вы предполагаете определенные распределения, и если вы делаете эти предположения, иногда вы можете найти аналитически управляемые задачи, для которых существуют полностью аналитические байесовские факторы.
Но никто не использует их; нет причин для Благодаря оптимизированным сэмплерам Метрополиса / Гиббса и другим методам MCMC вполне можно подходить к этим задачам полностью управляемым данными способом и вычислять ваши интегралы численно. Фактически, часто это делается иерархически, и в дальнейшем результаты интегрируются по мета-приорам, которые относятся к механизмам сбора данных, невосполнимым экспериментальным проектам и т. Д.
Я рекомендую книгу « Байесовский анализ данных», чтобы узнать больше об этом. Хотя автор, Эндрю Гельман, кажется, не слишком заботится о байесовских факторах . Кстати, я согласен с Гельманом. Если вы собираетесь перейти на байесовский режим, используйте весь задний план. Делать выбор модели с помощью байесовских методов - это все равно, что препятствовать им, потому что выбор модели - это слабая и в основном бесполезная форма вывода. Я бы предпочел знать распределение по выбору модели, если смогу ... кого волнует квантование до утверждений типа «модель А лучше, чем модель В», когда вам не нужно?
Кроме того, при вычислении байесовского фактора применяется ли поправка на сложность (автоматически с помощью перекрестной проверки оценки вероятности или аналитически с помощью AIC), как это делается с отношением правдоподобия?
Это одна из приятных вещей о байесовских методах. Байесовские факторы автоматически учитывают сложность модели в техническом смысле. Вы можете настроить простой сценарий с двумя моделями, и с предполагаемыми сложностями моделей и соответственно, с и размером выборки. .M1M2d1d2d1<d2N
Тогда , если является фактор Байеса с в числителе, в предположении , что верно, можно доказать , что в качестве , подходы со скоростью, которая зависит от разницы в сложности модели, а также от того, что байесовский фактор благоприятствует более простой модели. Более конкретно, вы можете показать, что при всех вышеперечисленных предположенияхB1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Я знаком с этим выводом и обсуждением из книги Сильвии Фрювирт-Шнаттер « Конечная смесь и марковские модели переключения» , но, скорее всего, есть более непосредственные статистические описания, которые больше погружаются в основополагающую эпистемологию.
Я не знаю деталей достаточно хорошо, чтобы дать их здесь, но я полагаю, что есть некоторые довольно глубокие теоретические связи между этим и происхождением AIC. Книга Обложки и Томаса по теории информации, по крайней мере, намекала на это.
Кроме того, каковы философские различия между отношением правдоподобия и байесовским фактором (примечание: я не спрашиваю о философских различиях между отношением правдоподобия и байесовскими методами в целом, но байесовский фактор как представление объективных данных конкретно). Как можно охарактеризовать значение байесовского фактора по сравнению с отношением правдоподобия?
Раздел статьи Wikipedia «Интерпретация» хорошо обсуждает это (особенно диаграмма, показывающая шкалу доказательственной силы Джеффриса).
Как обычно, не так уж много философских вещей, кроме основных различий между байесовскими методами и методами частых (с которыми вы, кажется, уже знакомы).
Главное, что отношение правдоподобия не соответствует голландскому смыслу книги. Вы можете придумать сценарии, в которых логический вывод выбора модели из вероятностных отношений приведет к тому, что вы будете принимать проигрышные ставки. Байесовский метод является последовательным, но работает на основе априора, который может быть чрезвычайно плохим и должен быть выбран субъективно. Компромиссы .. компромиссы ...
FWIW, я думаю, что этот тип сильно параметризованного выбора модели не очень хороший вывод. Я предпочитаю байесовские методы, и я предпочитаю организовывать их более иерархически, и я хочу, чтобы логический вывод сосредоточился на полном апостериорном распределении, если это вообще возможно с вычислительной точки зрения. Я думаю, что у байесовских факторов есть некоторые аккуратные математические свойства, но, как и сам байесовский, я не впечатлен ими. Они скрывают действительно полезную часть байесовского анализа, заключающуюся в том, что он заставляет вас иметь дело с вашими приорами на открытом месте вместо того, чтобы сметать их под ковер, и позволяет делать выводы о полных постерах.