Расчет предельной вероятности по образцам MCMC


24

Это повторяющийся вопрос (см. Этот пост , этот пост и этот пост ), но у меня другое вращение.

Предположим, у меня есть набор сэмплов из стандартного сэмплера MCMC. Для каждого образца я знаю значение вероятности записи в журнал и предшествующего . Если это помогает, я также знаю значение вероятности записи в журнал для каждой точки данных, (эта информация помогает в некоторых методах, таких как WAIC и PSIS-LOO).θlogf(x|θ)logf(θ)logf(xi|θ)

Я хочу получить (грубую) оценку предельной вероятности, только с имеющимися у меня выборками, и, возможно, с некоторыми другими оценками функций (но без повторного запуска специальной MCMC).

Прежде всего, давайте очистим таблицу. Все мы знаем, что оценка гармоник - худшая оценка за всю историю . Давайте двигаться дальше. Если вы делаете выборку Гиббса с априорами и постерами в закрытой форме, вы можете использовать метод Чиба ; но я не уверен, как обобщать за пределами этих случаев. Существуют также методы, которые требуют, чтобы вы изменили процедуру выборки (например, с помощью закаленных постеров ), но меня это здесь не интересует.

Подход, о котором я думаю, состоит в аппроксимации базового распределения параметрической (или непараметрической) формой , а затем в определении задачи нормализации как одномерной задачи оптимизации (т. которая минимизирует некоторую ошибку между и , вычислено по образцам). В простейшем случае, предположим, что апостериор является грубо многомерной нормалью, я могу подогнать как многовариантную нормаль и получить что-то похожее на приближение Лапласа (возможно, я хотел бы использовать несколько дополнительных функций для уточнения положения режим). Тем не менее, я мог бы использовать какg(θ)ZZZg(θ)f(x|θ)f(θ)g(θ)g(θ)более гибкое семейство, такое как вариационная смесь многомерных распределений.t

Я ценю, что этот метод работает, только если - разумное приближение к , но любая причина или предостерегающий рассказ о том, почему было бы очень неразумно сделай это? Любое чтение, которое вы бы порекомендовали?Zg(θ)f(x|θ)f(θ)

В полностью непараметрическом подходе используется некоторое непараметрическое семейство, такое как гауссовский процесс (GP), для аппроксимации (или некоторого другого его нелинейного преобразования, такого как как квадратный корень), и байесовская квадратура для неявной интеграции по основной цели (см. здесь и здесь ). Это представляется интересным альтернативным подходом, но аналогичным по духу (также обратите внимание, что в моем случае ВОП были бы громоздкими).logf(x|θ)+logf(θ)


6
Я думаю, что Чиб, С. и Джелязков, И. 2001 "Предельная вероятность по метрополии - выход Гастингса" обобщается на обычные результаты MCMC - было бы интересно услышать опыт с этим подходом. Что касается GP - в основном, это сводится к эмуляции задней части, что вы также можете рассмотреть для других проблем. Думаю, проблема в том, что вы никогда не уверены в качестве аппроксимации. Меня также интересует, является ли образец MCMC идеальным для модели GP, или вам следует больше инвестировать в хвосты.
Флориан Хартиг

2
(+1) Спасибо за ссылку, выглядит на месте - я проверю. Я согласен, что все подходы на основе моделей могут быть проблематичными (хорошо с байесовской квадратурой является то, что вы получаете оценку неопределенности, хотя и не уверены, насколько она калибрована). На данный момент моя скромная цель - сделать что-то «лучше, чем приближение Лапласа».
Lacerbi

Ответы:


26

К сожалению, расширение, выполненное Chib and Jeliazkov (2001), быстро становится дорогостоящим или сильно изменчивым, что является причиной, по которой его не так часто используют за пределами выборок Гиббса.

Несмотря на то, что существует множество способов и подходов к проблеме оценки константы нормализации (как показывают довольно разнообразные доклады на семинаре по оценке константы, который мы провели на прошлой неделе в Университете Уорика, слайды доступны там ), некоторые решения действительно используют непосредственно вывод MCMC.Z

  1. Как вы упомянули, средняя оценка по гармоникам Ньютона и Рафтери (1994) почти всегда плоха из-за бесконечной дисперсии. Однако есть способы избежать проклятия бесконечной дисперсии, используя вместо этого конечную опорную цель в среднем гармоническом тождестве , выбрав в качестве индикатора области HPD для апостериорного. Это обеспечивает конечную дисперсию, удаляя хвосты в среднем по гармонике. (Подробности можно найти в статье, которую я написал с Дарреном Рейтом, и в главе о нормализации констант, написанной Жан-Мишелем Марином.) Короче говоря, метод вывод MCMC & alphathetas1,...,thetasМ& betaл(thetas)F(х|thetas)& alphathetas ; 0 я ρZ Z -1= 1

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMпутем определения (скажем, 20%) наибольших значений цели и создания как униформы по объединению шаров, центрированных в этих симуляциях с наибольшей плотностью (HPD) и с радиусом , что означает оценку нормализующей константы : βπ(θ)f(x|θ)αθi0ρZ dθραM2βM21
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    если - это размерность (поправки применяются для пересекающихся шаров) и если достаточно мало, чтобы шары никогда не пересекались (это означает, что в лучшем случае только один индикатор на шары отличны от нуля). Объяснение знаменателя состоит в том, что это двойная суммаdθραM2βM2 условия: с каждым членом в интегрирующимся в . θmZ-1
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. Другой подход - превратить нормализующую константу в параметр. Это звучит как статистическая ересь, но статья Guttmann and Hyvärinen (2012) убедила меня в обратном. Не вдаваясь в подробности, идеальная идея заключается в том, чтобы превратить наблюдаемое логарифмическое правдоподобие в совместное логарифмическое правдоподобие - логарифмическая вероятность пуассоновского точечного процесса с функцией интенсивности Z n i = 1 [f(xi|θ)+ν]-nexp[f(x)|θ)+ν]dxexp{

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    Это альтернативная модель в том смысле, что первоначальная вероятность не является предельной из вышеперечисленных. Только моды совпадают, причем условная мода в ν обеспечивает нормирующую постоянную. На практике вышеупомянутая вероятность пуассоновского процесса недоступна, и Guttmann and Hyvärinen (2012) предлагают приближение посредством логистической регрессии. Чтобы еще лучше связать ваш вопрос, оценка Гейера представляет собой MLE, следовательно, решение проблемы максимизации.
  3. Связанный подход - это подход логистической регрессии Чарли Гейера . Фундаментальная идея состоит в том, чтобы добавить к образцу MCMC из другой образец из известной цели, например, ваше лучшее предположение в , , и выполнить логистическая регрессия по индексу распределения за данными (1 для и 0 для ). С регрессорами, являющимися значениями обеих плотностей, нормированными или нет. Это напрямую связано с мостовой выборкой Гельмана и Менга (1997), которая также перерабатывает образцы из разных целей. И более поздние версии, как MLE Мэн.π ( θ | x ) g ( θ ) π ( θ | x ) g ( θ )π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)
  4. Другой подход, который заставляет запускать конкретный сэмплер MCMC - это вложенный сэмплинг Skilling . Хотя у меня [и других] есть некоторые оговорки относительно эффективности метода, он довольно популярен в астростатистике и космологии, с программным обеспечением, доступным как multinest .
  5. Последнее [потенциальное, если не всегда возможное] решение состоит в том, чтобы использовать представление Сэвиджа-Дики Байесовского фактора в случае встроенной нулевой гипотезы. Если значение NULL записывается как об интересующем параметре, и если - это оставшаяся [неприятная] часть параметра модели, предполагая априор в форме , байесовский фактор против альтернативы записывается как где обозначает предельную апостериорную плотность при конкретном значенииH0:θ=θ0ξπ1(θ)π2(ξ)H0 | θ,ξ)π1(θ)π2(ξ)dθdξ
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0, Если предельная плотность при доступна в В закрытой форме можно получить предельную плотность для неограниченной модели из байесовского фактора. (Это представление Сэвиджа-Дики опирается на конкретные версии трех разных плотностей и поэтому чревато опасностью, даже не упоминая вычислительную проблему создания маргинального апостериорного.)H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[Вот набор слайдов, которые я написал об оценке нормализующих констант для семинара NIPS в декабре прошлого года.]


2
(+1) Невероятно богатый ответ, спасибо. Это будет полезно для меня и, я полагаю, многих других людей. Мне потребуется некоторое время, чтобы взглянуть на различные подходы, а затем я могу вернуться с конкретными вопросами.
lacerbi

2
Начиная с пункта (1) ... Я читаю соответствующие статьи. «Исправленная» средняя оценка гармоник кажется именно тем , что я искал. Это аккуратно и легко вычислить, учитывая вывод MCMC. Итак ... в чем подвох? Судя по быстрому поиску в Google Scholar, не похоже, что этот метод широко используется. Каковы его ограничения? (Помимо необходимости определить регионы HPD, что, я думаю, может стать проблемой для очень сложных постеров в высоком измерении). Я определенно собираюсь попробовать - но мне интересно, есть ли что-то, чего я должен опасаться.
Lacerbi

2
Я добавил еще несколько деталей: проблема внедрения униформы HPD состоит в том, чтобы найти правильное компактное приближение для региона HPD. Трудно определить выпуклую оболочку точек с высокими задними значениями (NP?), В то время как шары, центрированные в этих точках, могут пересекаться, что создает вторичную проблему нормализующей константы.
Сиань

2
@ Сиань: очень полезно, спасибо! Могу ли я спросить: из всех упомянутых подходов, что в настоящее время будет вашей рекомендацией, если вы ищете общий подход, который имеет тенденцию работать «из коробки» (т.е. от пользователя не требуется настройка / проверка)? Я был бы особенно заинтересован в случае моделей с низким (<50) количеством параметров, ненормальными постерингами и сильной корреляцией между параметрами.
Флориан Хартиг

1
@FlorianHartig: тот факт, что универсальное программное обеспечение, такое как BUGS, не возвращает общую оценку является своего рода раскрытием масштабов проблемы. Многие решения, которые можно найти в специализированной литературе, не дали единодушной оценки. Следовательно, я рекомендую выбрать решение логистической регрессии Гейера, которое несколько нечувствительно к измерению. Z
Сиань
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.