Какие алгоритмы / методы MCMC используются для дискретных параметров?

Я знаю достаточно много о подборе непрерывных параметров, особенно градиентных методов, но не много о подборе дискретных параметров.

Каковы обычно используемые алгоритмы / методы MCMC для подгонки дискретных параметров? Существуют ли алгоритмы, которые являются достаточно общими и достаточно мощными? Существуют ли алгоритмы, которые хорошо справляются с проклятием размерности? Например, я бы сказал, что гамильтонов MCMC является общим, мощным и хорошо масштабируется.

Выборка из произвольного дискретного распределения кажется более сложной, чем выборка из непрерывного распределения, но мне любопытно, каков уровень техники.

Изменить : JMS попросил меня уточнить.

Я не имею в виду конкретные приложения, но вот некоторые виды моделей, которые я представляю себе:

Выбор модели между несколькими видами моделей непрерывной регрессии. У вас есть дискретный единственный параметр «модель»
Непрерывная модель, в которой каждое наблюдение может быть «выбросом» и получено из гораздо более рассеянного распределения. Я полагаю, это смешанная модель.

Я ожидаю, что многие модели будут включать как непрерывные, так и дискретные параметры.

bayesian mcmc

— Джон Сальватье
источник

Таким образом, простой ответ - да: Метрополис-Гастингс и его выборка Гиббса в особом случае :) Общий и мощный; масштабируется ли он, зависит от проблемы под рукой.

$f(k)$ $P(\tilde k = k) = f(k)/\sum f(k)$ $k$

Вы имеете в виду конкретную модель? Существуют всевозможные подходы MCMC для подбора моделей смесей, например, когда скрытые назначения компонентов являются дискретными параметрами. Они варьируются от очень простых (Гиббс) до довольно сложных.

Насколько велика пространство параметров? Является ли он потенциально огромным (например, в случае модели смеси это N по количеству компонентов смеси)? Вам может не понадобиться ничего больше, чем сэмплер Гиббса, так как сопряжение больше не является проблемой (вы можете получить нормализующую константу напрямую, чтобы вы могли вычислить полные условия). На самом деле Гридби Гиббс имел обыкновение быть популярным в этих случаях, когда непрерывный априор дискретизируется для облегчения вычислений.

Я не думаю, что есть конкретное «лучшее» для всех задач, имеющих дискретное пространство параметров, больше, чем для непрерывного случая. Но если вы расскажете нам больше о моделях, которые вас интересуют, возможно, мы дадим несколько рекомендаций.

Изменить: ОК, я могу дать немного больше информации о ваших примерах.

$p(\beta)\sim \pi N(\beta; 0, \tau) + (1-\pi) N(\beta, 0, 1000\tau)$ $p(\beta)\sim \pi \delta_0 (\beta) + (1-\pi) N(\beta, 0, \tau)$ $\delta_0$ $\beta$ $Z$ $Z_1\dots, Z_p$ $2^p$ $1:2^p$

$p(Z, \beta|y)$ $p(Z, \beta|y) = p(\beta | Y, Z)p(Z|Y)$ $Z$ $\beta$

SSVS объединяет все пространство модели в одну большую модель. Часто это легко реализовать, но плохо работает. Обратимый переход MCMC - это другой подход, который позволяет явно изменять размерность пространства параметров; см. [3] для обзора и некоторых практических замечаний. Я уверен, что в литературе можно найти более подробные примечания по реализации в различных моделях.

$p=1000$

Другой подход, который набирает популярность, заключается в использовании абсолютно непрерывных усадочных априоров, которые имитируют усредненные результаты модели. Обычно они формулируются как смеси нормалей. Байесовское лассо является одним из примеров, который представляет собой особый случай нормальных гамма-приоров и предельный случай нормальных экспоненциальных гамма-приоров. Другие варианты включают подкову и общий класс нормальных распределений с инвертированными бета-приорами их дисперсии. Более подробно об этом я бы предложил начать с [6] и вернуться к ссылкам (слишком много, чтобы я мог воспроизвести их здесь :))

Я добавлю больше о выпадающих моделях позже, если у меня будет шанс; Классическая ссылка [7]. По духу они очень похожи на усадочную приору. Обычно их довольно легко сделать с помощью выборки Гиббса.

Возможно, не так практично, как вы надеялись; Выбор модели, в частности, является сложной проблемой, и чем сложнее модель, тем хуже она становится. Блокировать обновление везде, где это возможно, - единственный совет, который у меня есть. При выборке из множества распределений часто возникает проблема, состоящая в том, что показатели членства и параметры компонентов сильно коррелируют. Я также не затрагивал вопросы переключения меток (или отсутствие переключения меток); там довольно много литературы, но это немного из моей рубки.

В любом случае, я думаю, что было бы полезно начать с некоторых ссылок здесь, чтобы понять, как другие люди подходят к подобным проблемам.

[1] Мерлис Клайд и Э.И. Джордж. Модель неопределенности статистической науки 19 (2004): 81--94. http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2] http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Реверсивный прыжок Green & Hastie MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf

[6] http://www.uv.es/bernardo/Polson.pdf

[7] Mike West Outlier модели и априорные распределения в байесовской линейной регрессии (1984) JRSS-B

— JMS
источник

Я прошу прощения за долгое время, чтобы ответить. Я привел несколько примеров типов моделей. Дайте мне знать, если вы хотите больше разъяснений. Я думал о дискретных распределениях как о более трудных для выборки, потому что кажется, что они будут более склонны к мультимодальному поведению. Применима ли явная нормализация, когда у вас есть смесь дискретных и непрерывных переменных?

— Джон Сальватье