Примеры ошибок в алгоритмах MCMC

Я исследую метод автоматической проверки методов Монте-Карло цепей Маркова и хотел бы привести примеры ошибок, которые могут возникнуть при построении или реализации таких алгоритмов. Бонусные баллы, если в опубликованной статье использовался неправильный метод.

Меня особенно интересуют случаи, когда ошибка означает, что цепочка имеет неправильное инвариантное распределение, хотя другие типы ошибок (например, цепочка не эргодическая) также могут представлять интерес.

Примером такой ошибки может быть отсутствие вывода значения, когда Metropolis-Hastings отклоняет предложенный ход.

mcmc

— Саймон Бирн
источник

Один из моих любимых примеров - оценка среднего по гармонике, потому что она обладает хорошими асимптотическими свойствами, но на практике не работает. Рэдфорд Нил обсуждает это в своем блоге: «Плохая новость заключается в том, что количество баллов, необходимых для того, чтобы этот оценщик приблизился к правильному ответу, часто будет больше, чем число атомов в наблюдаемой вселенной». Этот метод широко применяется в приложениях.

Еще одна любезность профессора Нила.

— Cyan

@ Кьян Чтобы Нила воспринимали всерьез, я думаю, ему следовало бы найти журнал, который бы принимал его статью, а не просто отправлял ее в Интернете. Я легко могу поверить, что он прав, а судьи и авторы неверны. Хотя трудно публиковать статьи, которые противоречат опубликованным результатам, и отклонение JASA обескураживает, я думаю, ему следовало бы попробовать несколько других журналов, пока он не преуспел. Вам нужен независимый и независимый судья, чтобы повысить достоверность своих выводов.

— Майкл Р. Черник

Следует всегда серьезно относиться к профессору Нилу! о) Серьезно, это позор, что такие результаты трудно опубликовать, и, к сожалению, современная академическая культура, похоже, не ценит такого рода вещи, поэтому понятно, что это не является для него приоритетным занятием. Интересный вопрос, мне очень интересны ответы.

— Дикран Сумчатый

@ Майкл: Возможно. Будучи во всех подобных ситуациях, в том числе в позиции профессора Нила, я неоднократно замечал, что отторжение бумаги несет в себе очень, очень мало информации, как и многие другие. Экспертная оценка на несколько порядков более шумная, чем люди хотят признать, и часто, как это может быть в данном случае, присутствуют частичные и заинтересованные (т.е. не независимые) стороны и интересы. Тем не менее, я не намеревался, что мой оригинальный комментарий уведет нас так далеко от темы. Спасибо, что поделились своими мыслями по этому вопросу.

— кардинал

Ответы:

1. Предельная вероятность и средняя гармоническая оценка

Предельная вероятность определяются как нормализующий константы заднего распределения

p (x) = \int_{Θ} p (x | θ) p (θ) d θ .

$p({\bf x})=\int_{\Theta}p({\bf x}\vert\theta)p(\theta)d\theta.$

Важность этой величины обусловлена той ролью, которую она играет в сравнении моделей с помощью байесовских факторов .

Было предложено несколько методов для аппроксимации этой величины. Raftery et al. (2007) предлагают оценку средней гармоники , которая быстро стала популярной благодаря своей простоте. Идея состоит в использовании отношения

\frac{1}{p (x)} = \int_{Θ} \frac{p (θ | x)}{p (x | θ)} d θ .

$\dfrac{1}{p({\bf x})}=\int_{\Theta}\dfrac{p(\theta\vert{\bf x})}{p({\bf x}\vert\theta)}d\theta.$

Поэтому, если у нас есть образец с задней стороны, скажем , эта величина может быть аппроксимирована $(\theta_1,...,\theta_N)$

\frac{1}{p (x)} \approx \frac{1}{N} \sum_{j = 1}^{N} \frac{1}{p (x | θ_{j})} .

$\dfrac{1}{p({\bf x})}\approx\dfrac{1}{N}\sum_{j=1}^N \dfrac{1}{p({\bf x}\vert\theta_j)}.$

Это приближение связано с концепцией выборки значения .

По закону больших чисел, как это обсуждалось в Ниле блоге , мы имеем , что эта оценка является последовательной . Проблема в том, что требуемое для хорошего приближения может быть огромным. Посмотрите блог Нила или блог Роберта 1 , 2 , 3 , 4 для некоторых примеров. $N$

альтернативы

Есть много альтернатив для аппроксимации . Шопен и Роберт (2008) представляют некоторые важные методы на основе выборки. $p({\bf x})$

2. Недостаточная длительность работы сэмплера MCMC (особенно при наличии мультимодальности)

Mendoza и Gutierrez-Peña (1999) выводят эталонный априорный / апостериорный коэффициент для двух нормальных средних и представляют пример выводов, полученных с помощью этой модели с использованием реального набора данных. Используя методы MCMC, они получают выборку размером от апостериорного отношения средств которое показано ниже $2000$ $\varphi$

введите описание изображения здесь

И получите интервал HPD для . После анализа выражения апостериорного распределения легко увидеть, что оно имеет сингулярность в а апостериор должен выглядеть примерно так (обратите внимание на сингулярность в ) $\varphi$ $(0.63,5.29)$ $0$ $0$

введите описание изображения здесь

Что может быть обнаружено только в том случае, если вы используете пробоотборник MCMC достаточно долго или используете адаптивный метод. HPD, полученный с помощью одного из этих методов, равен как уже сообщалось . Длина интервала HPD значительно увеличивается, что имеет важные последствия при сравнении его длины с частыми / классическими методами. $(0,7.25)$

3. Некоторые другие вопросы, такие как оценка сходимости, выбор начальных значений, плохое поведение цепочки, можно найти в этой дискуссии Гельмана, Карлина и Нила.

4. Важность выборки

Метод аппроксимации интеграла состоит в умножении подынтегрального выражения на плотность с тем же носителем, который мы можем смоделировать из $g$

I = \int f (x) d x = \int \frac{f (x)}{g (x)} g (x) d x .

$I=\int f(x)dx = \int \dfrac{f(x)}{g(x)}g(x)dx.$

Тогда, если у нас есть выборка из , , мы можем приблизить следующим образом $g$ $(x_1,...,x_N)$ $I$

I \approx \frac{1}{N} \sum_{j = 1}^{N} \frac{f (x_{j})}{g (x_{j})} .

$I\approx \dfrac{1}{N}\sum_{j=1}^N \dfrac{f(x_j)}{g(x_j)}.$

Возможная проблема состоит в том, что у должны быть хвосты, более тяжелые / подобные / чем или требуемое для хорошего приближения может быть огромным Смотрите следующий пример игрушки в R. $g$ $f$ $N$

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

Это отличные примеры. Для всех, кто заинтересован, письмо в редакцию с рисунком находится здесь: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract

— Саймон Бирн

Очень хорошее и понятное резюме! (+1)

— gui11aume

Даррен Уилкинсон в своем блоге приводит подробный пример распространенной ошибки в случайной прогулке Метрополис-Гастингс. Я рекомендую прочитать его полностью, но вот версия tl; dr.

Если целевое распределение является положительным (например, гамма-распределения и т. Д. ) В одном измерении, заманчиво отклонить предложения, которые имеют отрицательное значение в этом измерении сразу. Ошибка состоит в том, чтобы отбросить предложения, как будто они никогда не были реализованы, и оценить только коэффициент приемлемости Метрополис-Гастингс (МЗ). Это ошибка, поскольку она сводится к использованию несимметричной плотности предложений.

Автор предлагает применить одно из двух исправлений.

Считайте «негативы» неудачными в принятии (и теряйте немного эффективности).
Используйте правильное соотношение MH в этом случае, которое является

\frac{π (x^{*})}{π (x)} \frac{Φ (x)}{Φ (x^{*})},

$\frac{\pi(x^*)}{\pi(x)} \frac{\Phi(x)}{\Phi(x^*)},$

где - плотность цели, а - константа нормализации усеченного предложения случайного блуждания , т.е. . $\pi$ $\Phi$ $\phi$ $\Phi(x) = \int_0^{\infty} \phi(y-x)dy$

— gui11aume
источник

+1 Интересный пример. Я также думал о других проблемах с MH, связанных с уровнем принятия. Я думаю, что оптимальный коэффициент 0,234 был чрезмерно использован.

@ Procrastinator Вы очень хорошо знаете литературу по MCMC. Это ваша область знаний?

— gui11aume

Спасибо за ваш комментарий. Мне нравится байесовская статистика, тогда мне нужно нести крест MCMC;).

Очень ясный случай (связанный с приближением предельного правдоподобия, упомянутым в первом ответе), где истинная сходимость является примером проблемы переключения меток в моделях смеси в сочетании с использованием оценки Чиба (1995) . Как указывает Рэдфорд Нил (1999), если цепочка MCMC не сходится правильно, в том смысле, что она исследует некоторые из режимов распределения цели, приближение Монта-Карло Чиба не достигает правильного числового значения.

— Сиань
источник