Могут ли быть использованы алгоритмы машинного обучения или глубокого обучения, чтобы «улучшить» процесс выборки техники MCMC?

21

Основываясь на небольшом знании о методах MCMC (цепочка Маркова, Монте-Карло), я понимаю, что отбор проб является важной частью вышеупомянутой техники. Наиболее часто используемые методы отбора проб - это гамильтониан и метрополис.

Есть ли способ использовать машинное обучение или даже глубокое обучение для создания более эффективного сэмплера MCMC?

— Jespar
источник

5

Не могли бы вы указать, какое «улучшение» вы имеете в виду и как вы видите роль машинного обучения в этом…?

— Тим

2

Обычно MCMC обычно включает в себя оценку значений по выражениям без замкнутой формы, которые просто слишком сложны, чтобы найти аналитические решения. Возможно, что многомерная кластеризация (или аналогичные подходы) может быть использована для оценки более простых многомерных плотностей, но я бы увидел, что это больше альтернатива использованию MCMC вообще.

— AdamO

1

@ AdamO, почему бы не преобразовать это в ответ? Кажется, что это может быть так хорошо, как мы можем добраться сюда.

— gung - Восстановить Монику

@Tim Хорошо, из того, что я прочитал, MCMC берет образцы из распределения, чтобы вычислить косвенные количества. Алгоритм MH случайным образом выбирает «местоположения» и затем утверждает, являются ли они приемлемыми. Мне было интересно, есть ли альтернативные методы ML. Я знаю, что это звучит расплывчато, и я прошу прощения за это, но я нахожу MCMC интригующим, и я пытаюсь овладеть теорией и практическими приложениями, самостоятельно изучая.

— Джеспар

1

Связанные arxiv.org/pdf/1506.03338v3.pdf

— Опт,

27

Да. В отличие от того, что говорится в других ответах, «типичные» методы машинного обучения, такие как непараметрические и (глубокие) нейронные сети, могут помочь в создании лучших сэмплеров MCMC.

Целью MCMC является отбор образцов из (ненормализованного) целевого распределения . Полученные выборки используются для аппроксимации и в основном позволяют вычислять ожидания функций при (т. Е. Многомерных интегралов) и, в частности, свойств (например, моментов). $f(x)$ $f$ $f$ $f$

Выборка обычно требует большого количества оценок и, возможно, его градиента, для таких методов, как гамильтонов Монте-Карло (HMC). Если оценка является дорогостоящей или градиент недоступен, иногда можно создать менее дорогую суррогатную функцию, которая может помочь в проведении выборки и оценивается вместо (таким образом, что все еще сохраняется свойства MCMC). $f$ $f$ $f$

Например, в основной статье ( Rasmussen 2003 ) предлагается использовать гауссовские процессы (аппроксимация непараметрической функции) для построения аппроксимации для и выполнения HMC для суррогатной функции только с шагом принятия / отклонения HMC на основе . Это уменьшает количество оценок исходного и позволяет выполнять MCMC для PDF-файлов, которые в противном случае были бы слишком дорогими для оценки. $\log f$ $f$ $f$

Идея использования суррогатов для ускорения MCMC много раз исследовалась в последние несколько лет, в основном путем попытки разных способов создать суррогатную функцию и эффективно / адаптивно комбинировать ее с различными методами MCMC (и таким образом, чтобы сохранить «правильность». 'отбора проб MCMC). Что касается вашего вопроса, то в этих двух совсем недавних статьях для построения суррогатной функции используются передовые методы машинного обучения - случайные сети ( Zhang et al. 2015 ) или адаптивно изученные экспоненциальные функции ядра ( Strathmann et al. 2015 ).

HMC не единственная форма MCMC, которая может извлечь выгоду из суррогатов. Например, Nishiara et al. (2014) построение аппроксимации целевой плотности путем подгонки многомерного распределения Стьюдента к многоцепочечному состоянию ансамблевого сэмплера и использования его для выполнения обобщенной формы выборки эллиптических срезов . $t$

Это только примеры. В целом, ряд различных методов ML (главным образом в области аппроксимации функций и оценки плотности) может использоваться для извлечения информации, которая может повысить эффективность пробоотборников MCMC. Их фактическая полезность - например, измеряемая количеством «эффективных независимых выборок в секунду» - зависит от того, является ли дорогостоящим или несколько сложным для вычисления; Кроме того, многие из этих методов могут потребовать настройки собственных или дополнительных знаний, что ограничивает их применимость. $f$

Ссылки:

Расмуссен, Карл Эдвард. «Гауссовские процессы для ускорения гибридной Монте-Карло для дорогих байесовских интегралов». Байесовская статистика 7. 2003.
Чжан, Чэн, Бабак Шахбаба и Хункай Чжао. «Гамильтоново ускорение Монте-Карло с использованием суррогатных функций со случайными основаниями». Препринт arXiv arXiv: 1506.05555 (2015).
Стратманн, Хейко и др. «Безградиентный гамильтониан Монте-Карло с эффективными семействами экспоненциальных ядер». Достижения в нейронных системах обработки информации. 2015.
Нишихара, Роберт, Иэн Мюррей и Райан П. Адамс. «Параллельный MCMC с обобщенной выборкой эллиптических срезов». Журнал исследований машинного обучения 15.1 (2014): 2087-2112.

— lacerbi
источник

2

Я не уверен, что перечисленные вами методы действительно относятся к категории «методов машинного обучения», а не просто к стандартным методам MCMC (хотя это самая размытая линия). Единственный метод , который определенно кажется методом ML / DL, был 3, который с тех пор удалил «нейронную сеть» из своего заголовка (и, кажется, признает в тексте, что использование стандартных методов ML будет слишком медленным).

— Клифф А.Б.

2

t

$t$

1

Большое спасибо @lacerbi. Я рад, что могу использовать ваши рекомендации в качестве основы для дальнейших исследований.

— Джеспар

6

Метод, который может связать две концепции, - это алгоритм многомерного Метрополиса Гастингса. В этом случае у нас есть целевое распределение (апостериорное распределение) и распределение предложения (обычно многовариантное нормальное или t-распределение).

Хорошо известным фактом является то, что чем дальше распределение предложения от апостериорного распределения, тем менее эффективен пробоотборник. Таким образом, можно представить себе использование какого-либо метода машинного обучения для создания распределения предложения, которое лучше соответствует истинному последнему распределению, чем простое многомерное нормальное / t-распределение.

Тем не менее, не ясно, будет ли это какое-либо улучшение эффективности. Предлагая глубокое изучение, я предполагаю, что вы можете быть заинтересованы в использовании какого-то подхода нейронной сети. В большинстве случаев это будет значительно дороже в вычислительном отношении, чем весь сам метод vanMCMC. Точно так же я не знаю ни одной причины, по которой методы NN (или даже большинство методов машинного обучения) хорошо справляются с обеспечением адекватной плотности за пределами наблюдаемого пространства, что крайне важно для MCMC. Таким образом, даже игнорируя вычислительные затраты, связанные с построением модели машинного обучения, я не вижу веской причины, по которой это могло бы повысить эффективность выборки.

— Клифф AB
источник

Клифф А.Б. Я чувствую, что вы и @AdamO разъяснили мне концепции MCMC и ML больше, чем потратили часы на другую книгу. Я ценю ваши усилия, ребята, и я рад, что вы упомянули некоторые области, в которые я могу углубиться.

— Джеспар

@ Ситерион, на какую книгу ты ссылаешься?

— AdamO

@AdamO В настоящее время я читаю «Укрепление» Ричарда Саттона и «Машинное обучение: вероятностная перспектива» Кевина Мерфи, в котором есть глава MCMC; а также публикации из различных журналов ML и вычислительной статистики.

— Джеспар

3

Машинное обучение связано с прогнозированием, классификацией или кластеризацией в контролируемых или неконтролируемых условиях. С другой стороны, MCMC просто занимается оценкой сложного интеграла (обычно без замкнутой формы) с использованием вероятностных численных методов. Выборка из метрополии определенно не самый распространенный подход. Фактически, это единственный метод MCMC, который не имеет вероятностного компонента. Таким образом, ML не сообщит ничего с MCMC в этом случае.

Выборка на основе Важности делает требует вероятностного компонента. Это более эффективно, чем Метрополис при некоторых основных предположениях. Методы ML могут использоваться для оценки этого вероятностного компонента, если он согласуется с некоторыми допущениями. Примерами могут быть многомерная кластеризация для оценки сложной многомерной гауссовской плотности. Я не знаком с непараметрическими подходами к этой проблеме, но это может быть интересной областью развития.

Тем не менее, ML выделяется для меня как особый шаг в процессе оценки модели многомерной комплексной вероятности, которая впоследствии используется в численном методе. Я не вижу, как ML действительно улучшает MCMC в этом случае.

— Adamo
источник

Спасибо @AdamO, по крайней мере, теперь у меня намного лучшее понимание этой области.

— Джеспар

1

Я думаю, что этот ответ является неполным и, возможно, неправильным (в зависимости от толкования фактического вопроса ОП, который не совсем ясен). Типичные методы , такие как ML Непараметрические и нейронные сети могут и будут использованы для улучшения MCMC пробников. На самом деле, это активная область исследований. Смотрите мой ответ и ссылки в нем для начала.

— Lacerbi

1

p

$p$

Спасибо @AdamO. Тем не менее, если честно, я не понимаю вашего объяснения или того, как оно делает ваш ответ правильным. Например, я не понимаю, что вы имеете в виду, когда говорите, что у «Метрополиса» нет «вероятностного компонента». Кроме того, вы заявляете, что ML не может помочь в выборке, что просто не соответствует действительности (даже в узком определении выборки как оценки многомерного интеграла), как показывает мой ответ.

— Lacerbi

3

@AdamO: гауссовские процессы, методы ядра, случайные базисные сети. В общем, любая форма приближения функции или оценки плотности будет работать. Если это не методы ML, я не уверен , что это ... (Обратите внимание , что ОП попросил ОД или DL методов). Кроме того, как я спросил выше, не могли бы вы объяснить, что вы имели в виду, когда писали, что у Метрополиса нет вероятностного компонента? Благодарность!

— Lacerbi

0

Было несколько недавних работ в вычислительной физике, где авторы использовали ограниченные машины Больцмана для моделирования распределения вероятностей, а затем предложили (надеюсь) эффективные обновления Монте-Карло arXiv: 1610.02746 . Идея здесь оказывается весьма похожей на ссылки, приведенные выше в @lacerbi.

В другой попытке 1702.08586 автор явным образом построил машины Больцмана, которые могут выполнять (и даже обнаруживать) знаменитые обновления Монте-Карло .

— Лэй Ван
источник