В чем разница между метрополисом Гастингсом, Гиббсом, Важностью и Отбором?


36

Я пытался изучить методы MCMC и наткнулся на выборку Metropolis Hastings, Gibbs, Важность и Отклонение. Хотя некоторые из этих различий очевидны, т. Е. То, как Гиббс является особым случаем Метрополиса Гастингса, когда у нас есть полные условия, другие менее очевидны, например, когда мы хотим использовать MH в семплере Гиббса и т. Д. Есть ли у кого-нибудь простой способ увидеть большую часть различий между каждым из них? Благодарность!


3
Йен Мюррей замечательно говорит об этом в своей лекции , по крайней мере, в отношении MCMC.
ГВР

2
Я согласен с Сианем, что это очень широкий вопрос; Вы фактически запрашиваете множество информации о четырех разных вещах, обсуждение любого из которых (или контраст между парой из которых) сделало бы несколько более длинный ответ. Возможно, мы сможем сосредоточиться на этом вопросе, отметив, что, хотя все четыре являются методами Монте-Карло, важная выборка и выборка отклонения не являются MCMC (это не означает, что их нельзя использовать в MCMC).
Glen_b

Ответы:


47

Как подробно описано в нашей книге с Джорджем Казеллой, статистические методы Монте-Карло , эти методы используются для получения выборок из заданного распределения, скажем, с плотностью , либо для получения представления об этом распределении, либо для решения проблемы интеграции или оптимизации, связанной с ф . Например, чтобы найти значение X h ( x ) f ( x ) d xff или мода распределения h ( X ), когда X f ( x ) или квантиль этого распределения.

Xh(x)f(x)dxh(X)R
h(X)Xf(x)

Для сравнения методов Монте-Карло и Маркова с цепочкой Монте-Карло, которые вы упоминаете в соответствующих критериях, требуется установить фон проблемы и цели эксперимента по моделированию, поскольку плюсы и минусы каждого из них будут варьироваться от случая к случаю.

Вот несколько общих замечаний, которые наверняка не охватывают сложность проблемы :

  1. fu1,u2,xfffxXf
  2. (xt)tfff
    f(x)Zf~(x,z)dz
    and still be associated with an MCMC method; (iii) there exist generic MCMC algorithms to produce simulations (xt)t that require very little calibration; (iv) dimension is less of an issue as large dimension targets can be broken into conditionals of smaller dimension (as in Gibbs sampling). The cons are that (i) the simulations (xt)t are correlated, hence less informative than i.i.d. simulations; (ii) the validation of the method is only asymptotic, hence there is an approximation in considering xt for a fixed t as a realisation of f; (iii) convergence to f (in t) may be so slow that for all practical purposes the algorithm does not converge; (iv) the universal validation of the method means there is an infinite number of potential implementations, with an equally infinite range of efficiencies.
  3. Importance sampling methods are originally designed for integral approximations, namely generating from the wrong target g(x) and compensating by an importance weight
    f(x)/g(x).
    The resulting sample is thus weighted, which makes the comparison with the above awkward. However, importance sampling can be turned into importance sampling resampling by using an additional resampling step based on the weights. The pros of importance sampling resampling are that (i) generation from an importance target g can be cheap and recycled for different targets f; (ii) the "right" choice of g can lead to huge improvements compared with regular or MCMC sampling; (iii) importance sampling is more amenable to numerical integration improvement, like for instance quasi-Monte Carlo integration; (iv) it can be turn into adaptive versions like population Monte Carlo and sequential Monte Carlo. The cons are that (i) resampling induces inefficiency (which can be partly corrected by reducing the noise as in systematic resampling or qMC); (ii) the "wrong" choice of g can lead to huge losses in efficiency and even to infinite variance; (iii) importance has trouble facing large dimensions and its efficiency diminishes quickly with the dimension; (iv) the method may be as myopic as local MCMC methods in missing important regions of the support of f.

In conclusion, a warning that there is no such thing as an optimal simulation method. Even in a specific setting like approximating an integral

I=Xh(x)f(x)dx,
costs of designing and running different methods intrude as to make a global comparison very delicate, if at all possible, while, from a formal point of view, they can never beat the zero variance answer of returning the constant "estimate"
I^=Xh(x)f(x)dx
For instance, simulating from f is very rarely if ever the best option. This does not mean that methods cannot be compared, but that there always is a possibility for an improvement, which comes with additional costs.

When you say "the outcome is truly an i.i.d. sample from f" would this mean that there's no warmup period necessary and that you would need far fewer posterior samples (since there's no autocorrelation)?
TrynnaDoStat

I was just wondering what the h(x) mean concretely in h(x)f(x)dx, in a Bayesian analysis scenario. We're trying to get the posterior, given the prior and the data. However, it seems that with all these sampling methods we're actually trying to approximate f(x). So can it be said that f(x) is already the posterior that we're looking for, and h(x) is just an arbitrary function that we might also put together with the posterior f(x)? Or did I not understand it correctly. Thanks.
xji

This is a particular case of
Xh(x)f(x)dx
indeed, when f is either the posterior or the prior x likelihood. And h is an arbitrary function which posterior expectation is of interest.
Xi'an
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.