Графические модели и машины Больцмана связаны математически?

Хотя я фактически занимался программированием на машинах Больцмана в классе физики, я не знаком с их теоретической характеристикой. Напротив, я знаю скромное количество о теории графических моделей (о первых нескольких главах книги Лауритцена « Графические модели» ).

Вопрос: Есть ли какая-либо значимая связь между графическими моделями и машиной Больцмана? Является ли машина Больцмана типом графической модели?

Очевидно, что машина Больцмана является типом нейронной сети. Я слышал, что некоторые нейронные сети математически связаны с графическими моделями, а некоторые нет.

Связанные вопросы о CrossValidated, которые не отвечают на мой вопрос:
Это похоже на предыдущий вопрос, который задавался ранее: Какова связь между иерархическими моделями, нейронными сетями, графическими моделями, байесовскими сетями? но более конкретно.

Более того, принятый ответ на этот вопрос не проясняет мою путаницу - даже если узлы в стандартном графическом представлении нейронной сети не представляют случайные величины, это не обязательно означает, что такого представления не существует. В частности, я думаю о том, как узлы в типичном графическом представлении цепей Маркова представляют собой набор возможных состояний, а не случайных величин , но можно также создать график, показывающий отношения условной зависимости между $X_i$ $X_i$ , что показывает, что каждая цепь Маркова является марковским случайным полем. В ответе также говорится, что нейронные сети (предположительно включая машины Больцмана) являются «дискриминационными», но не дают более подробных объяснений того, что означает это утверждение, и при этом не является очевидным последующим вопросом «графические модели не являются дискриминационными?» на имя. Аналогичным образом, принятый ответ ссылается на веб-сайт Кевина Мерфи (на самом деле я читал некоторые из его кандидатских диссертаций при изучении байесовских сетей), но этот сайт обсуждает только байесовские сети и вообще не упоминает нейронные сети - таким образом, он не освещает, как они разные.

Этот другой вопрос, вероятно, больше всего похож на мой: математическое моделирование нейронных сетей как графических моделей. Однако ни один из ответов не был принят, и аналогичным образом только дают ссылки, но не объясняют ссылки (например, этот ответ ). Хотя однажды я надеюсь, что смогу понять ссылки, сейчас я нахожусь на базовом уровне знаний и был бы очень признателен за ответ, который является максимально упрощенным. Кроме того, курс Торонто, на который есть ссылка в верхнем ответе ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ), решает эту проблему, но не очень подробно. Кроме того, примечания к одной лекции, которые могут ответить на мой вопрос , не доступны для общественности.

25 марта Лекция 13б: Сети веры 7:43. Для этого слайда, имейте в виду машины Больцмана. Там тоже есть скрытые юниты и видимые юниты, и все это вероятностно. BM и SBN имеют больше общего, чем различий. 9:16. В настоящее время «графические модели» иногда рассматриваются как особая категория нейронных сетей, но в истории, описанной здесь, они считались очень разными типами систем.

— Chill2Macht
источник

Ответы:

Машины Больцмана против ограниченных машин Больцмана

AFAIK машины Больцмана - это тип графической модели, а модель, связанная с нейронными сетями, - это машины Больцмана с ограничениями (RBM).

Разница между машинами Больцмана и ограниченными машинами Больцмана из книги « Машинное обучение вероятностная перспектива»

УКР против нейронных сетей

Для УОКР (ссылка: Практическое руководство по обучению ограниченных машин Больцмана Джеффри Хинтона ) где и соответствуют видимым и скрытым единицам на приведенном выше рисунке, а - это функция Sigmoid.

p (v, h) = \frac{1}{Z} \exp (\sum a_{i} v_{i} + \sum b_{j} h_{j} + \sum v_{i} h_{j} w_{i j})

$p(\mathbf{v},\mathbf{h})=\frac{1}{Z}\exp(\sum a_iv_i+\sum b_jh_j + \sum v_ih_jw_{ij})$

p (h_{j} = 1 | v) = σ (b_{j} + \sum v_{i} w_{i j})

$p(h_j=1|\mathbf{v})=\sigma(b_j+\sum v_iw_{ij})$

p (v_{i} = 1 | h) = σ (a_{i} + \sum h_{j} w_{i j})

$p(v_i=1|\mathbf{h})=\sigma(a_i+\sum h_jw_{ij})$

v

$\mathbf{v}$

h

$\mathbf{h}$

σ ()

$\sigma()$

Условные вероятности вычисляются в одной и той же форме сетевых уровней, поэтому обученные веса RBM могут использоваться непосредственно в качестве весов нейронных сетей или в качестве отправной точки обучения.

Я думаю, что сам RBM представляет собой скорее графическую модель, чем тип нейронной сети, поскольку он не ориентирован, имеет четко определенные условные зависимости и использует собственные алгоритмы обучения (например, контрастную дивергенцию).

— dontloo
источник

Хорошо, это действительно отличный ответ с отличной ссылкой. Также заставляет меня захотеть почитать книгу профессора Мерфи еще раньше. Я ценю время, которое вы потратили на этот исчерпывающий ответ.

— Chill2Macht

@William рад помочь :)

— августа

Хороший ответ. Не могли бы вы документировать нотацию немного больше? (Я недавно прочитал что-то связанное, я полагаю, поэтому я распознаю видимые узлы, скрытые узлы, логистическую функцию, но другие могут этого не делать.) Также может быть полезно включить полную цитату для защиты от ссылки -rot.

v =

$v=$

h =

$h=$

σ () =

$\sigma()=$

— GeoMatt22

@ GeoMatt22 спасибо, я обновил ответ.

— не

Это только подтверждает / подтверждает принятый ответ, что машины Больцмана действительно являются частным случаем графической модели. В частности, этот вопрос рассматривается на стр. 127-127 Коллера, Фридмана, Вероятностные графические модели: принципы и методы , во вставке 4.C.

Одним из самых ранних типов моделей сетей Маркова является модель Изинга, которая впервые возникла в статистической физике как модель энергии физической системы, включающей систему взаимодействующих атомов ... С моделью Изинга связано распределение машин Больцмана. Полученная энергия может быть переформулирована в терминах модели Изинга (упражнение 4.12).

Как модель Изинга, первоначально концепция из литературы по статистической механике, может быть сформулирована как графическая модель, подробно описана в примере 3.1, раздел 3.3, на стр. 41-43 Уэйнрайта, Джордан, Графические модели, Экспоненциальная Семьи и вариационный вывод .

Очевидно, модель Изинга сыграла важную роль в создании области графических моделей в конце 1970-х и начале 1980-х годов, по крайней мере, на основе того, что говорит Штеффен Лауритцен в предисловии и введении к своей книге « Графические модели» . Эта интерпретация также, кажется, подтверждается разделом 4.8 в вышеприведенной книге Коллера и Фридмана.

Разработка машин Больцмана из модели Изинга, возможно, была независимым явлением, основанным на том же разделе Коллера и Фридмана, который утверждает, что «машины Больцмана были впервые предложены Хинтоном и Сейновским (1983)», который, кажется, имеет произошло после первоначальной работы по разработке марковских случайных полей как обобщений модели Изинга, хотя работа над этой статьей могла бы начаться гораздо раньше, чем в 1983 году.

Моя путаница в отношении этих отношений, когда я писал этот вопрос более года назад, проистекала из того факта, что я впервые столкнулся как с моделью Изинга, так и с моделью машины Больцмана для нейронов, в литературе по физике. Как отмечают Коллер и Фридман, литература в сообществе статистической физики о модели Изинга и связанных с ней понятиях действительно обширна.

По моему опыту, это также довольно замкнутый, в том смысле, что хотя статистики и ученые, изучающие графические модели, будут упоминать, как область связана со статистической механикой, в литературе по статистической физике я не нашел упоминаний о связи с другими областями или пытается использовать это. (Следовательно, это заставляет меня сомневаться и смущаться из-за того, что могут быть какие-то такие связи с другими областями.)

Для примера взгляда физика как на модель Изинга, так и на машину Больцмана, см. Учебник из курса, где я впервые узнал об этом. В нем также упоминаются средние полевые методы, если я правильно помню, что-то, что также обсуждалось в приведенной выше статье Джордана и Уэйнрайта.

— Chill2Macht
источник

связь может быть очень тонкой и основываться главным образом на использовании функции разбиения, которая лежит в основе статистической механики и на которой берется экспонента суммы внутренних произведений. Функция softmax также использует эту форму, так что номенклатура поддерживает наследие терминов, и многие физики работают (ed) в ML (например, Кристофер Бишоп).

— Васс