Зачем нужна MCMC при оценке параметра с использованием MAP

Учитывая формулу для оценки MAP параметра. Почему необходим подход MCMC (или аналогичный), не могу ли я просто взять производную, установить ее в ноль, а затем решить для параметра?

bayesian estimation mcmc

— Дан
источник

Отличный вопрос!

Ответы:

Если вы знаете, к какому семейству относится ваш апостериор, и если найти производную этого распределения аналитически возможно, это правильно.

Однако, когда вы используете MCMC, вы, скорее всего, не окажетесь в такой ситуации. MCMC создан для ситуаций, в которых у вас нет четкого аналитического представления о том, как выглядит ваш зад.

— Кристоф Ханк
источник

Я думаю, что это немного вводит в заблуждение: MCMC обычно не используется для нахождения оценщика MAP (вне особых случаев, таких как алгоритм MCEM).

— Клифф А.Б.

Я не согласен с вами в принципе. Но MCMC можно и используется для имитации апостериорного распределения . И как только вы это сделаете, вы наверняка сможете найти способ этого дистрибутива, то есть MAP. Я полагаю, что именно это имел в виду ФП, поэтому я не совсем уверен, почему мой ответ будет вводить в заблуждение.

— Кристоф Ханк

Да, однако, является ли MCMC предпочтительным методом при работе с MAP, если нет аналитического способа оптимизации параметра?

— Деню

Я никогда не слышал об использовании простого MCMC для нахождения режима апостериорного распределения (технически это можно сделать, но это крайне неэффективно). Поскольку мы обычно можем оценить функцию, которая пропорциональна апостериорному распределению, максимизация этого будет эквивалентна максимизации апостериорного распределения. Оптимизаторы «из коробки» будут работать так же хорошо, как и любые вероятностные проблемы с частотой (то есть иногда вам нужно будет специализировать их).

— Клифф AB

@ Dänu Вы, вероятно, не хотите использовать MCMC (чтобы быть педантичным, цепью Маркова), чтобы найти максимумы. Алгоритм оптимизации должен работать лучше.

— jtobin

Оказывается, что большинство постеров трудно оптимизировать аналитически (т. Е. Взять градиент и установить его равным нулю), и вам придется прибегнуть к некоторому алгоритму численной оптимизации, чтобы выполнить MAP.

Как в стороне: MCMC не имеет отношения к MAP.

MAP - для апостериорного максимума - относится к нахождению локального максимума, пропорционального апостериорной плотности, и использованию соответствующих значений параметров в качестве оценок. Определяется как

{\hat{θ}}_{M A P} = {argmax}_{θ} p (θ | D)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

MCMC обычно используется для аппроксимации ожиданий относительно чего-то, пропорционального плотности вероятности. В случае сзади это

{\hat{θ}}_{M C M C} = n^{- 1} \sum_{i = 1}^{n} θ_{i}^{0} \approx \int_{Θ} θ p (θ | D) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

где - набор позиций в пространстве параметров, посещаемых подходящей цепью Маркова. В общем, в любом значимом смысле. $\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

Суть в том, что MAP включает в себя оптимизацию , а MCMC основывается на выборке .

— jtobin
источник

Вы утверждаете, что потомкам сложно аналитически оптимизировать, как в случае с MAP. Так возможно ли MAP только в том случае, если апостериорный анализ может быть оптимизирован аналитически, и если это не так, нужно прибегать (например) к подходу MCMC?

— Деню

Нет, вместо аналитического решения можно использовать итеративный алгоритм, чтобы найти решение (т. Е. Если задняя часть журнала вогнутая, вы можете использовать, например, метод Ньютона).

— Клифф AB

MAP относится к поиску значений параметров, которые (локально) максимизируют апостериорный. Неважно, как получить эти значения параметров: аналитическое решение для максимумов, использование числовой процедуры, автоматическое дифференцирование и т. Д.

— jtobin