Математическое моделирование нейронных сетей как графических моделей

12

Я изо всех сил пытаюсь сделать математическую связь между нейронной сетью и графической моделью.

В графических моделях идея проста: распределение вероятностей разлагается в соответствии с кликами на графике, причем потенциалы обычно имеют экспоненциальное семейство.

Есть ли аналогичная аргументация для нейронной сети? Можно ли выразить распределение вероятности по единицам (переменным) в ограниченной машине Больцмана или CNN как функцию их энергии или произведение энергий между единицами?

Кроме того, моделируется ли распределение вероятностей с помощью RBM или сети глубокого убеждения (например, с CNN) экспоненциального семейства?

Я надеюсь найти текст, который формализует связь между этими современными типами нейронных сетей и статистикой так же, как это сделали Джордан и Уэйнрайт для графических моделей с их графическими моделями, экспоненциальными семействами и вариационным выводом . Любые указатели были бы великолепны.

— Амелио Васкес-Рейна
источник

1

IM (ненавистник) O основная проблема заключается в том, что нейронные сети на самом деле не являются сетями; они практически имеют фиксированную топологию и, таким образом, имеют незначительный шанс хранить любую информацию внутри нее.

Вы видели этот недавний пост ?

— Джерад

@jerad Спасибо, я не читал этот пост. Мой вопрос не столько в том, как объединить эти модели (например, когда говорит Янн "using deep nets as factors in an MRF"), сколько в том, как смотреть на глубокую сеть как вероятностный граф факторов. Когда Ян Ян ЛеКуна говорит "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", мне интересно увидеть эту связь математически.

— Амелио Васкес-Рейна

@mbq, мы видели некоторые формы хранения информации о компонентах скрытого слоя, например https://distill.pub/2017/feature-visualization/( Как нейронные сети формируют понимание изображений ), в том, что сложное изображение имеет компоненты компонентов, представленные узлами скрытого слоя. Веса могут «изменять» топологию недискретным образом. Хотя я этого не видел, некоторые методы могут включать факторы усадки для удаления краев и, следовательно, для изменения исходной топологии

— Vass

6

Еще одним хорошим введением по этому вопросу является курс CSC321 в Университете Торонто и курс neuralnets-2012-001 по Coursera, который преподаёт Джеффри Хинтон.

Из видео на Сети Веры:

Графические модели

Ранние графические модели использовали экспертов для определения структуры графа и условных вероятностей. Графики были слабо связаны, и основное внимание уделялось правильному выводу, а не обучению (знания пришли от экспертов).

Нейронные сети

Для нейронных сетей обучение было центральным. Знание о жесткой проводке было не круто (хорошо, может быть, немного). Обучение пришло от изучения данных обучения, а не от экспертов. Нейронные сети не ставили целью интерпретируемость разреженных соединений, чтобы сделать вывод легким. Тем не менее, существуют нейронные сети версий сетей убеждений.

Насколько я понимаю, сети убеждений обычно слишком плотно связаны, а их клики слишком велики, чтобы их можно было интерпретировать. Сети убеждений используют сигмоидную функцию для интеграции входных данных, в то время как в непрерывных графических моделях обычно используется функция Гаусса. Сигмовидная оболочка облегчает обучение сети, но ее труднее интерпретировать с точки зрения вероятности. Я считаю, что оба в экспоненциальной семье.

Я далеко не эксперт в этом вопросе, но конспект лекций и видео - отличный ресурс.

— ostrokach
источник

1

Добро пожаловать на сайт. Мы пытаемся создать постоянное хранилище высококачественной статистической информации в форме вопросов и ответов. Таким образом, мы опасаемся ответов, содержащих только ссылки, из-за linkrot. Можете ли вы опубликовать полную ссылку и краткое изложение информации по ссылке, если она не работает?

— gung - Восстановить Монику

Это действительно мило. Спасибо за добавление этой информации и добро пожаловать в резюме.

— gung - Восстановить Монику

Я должен указать, что информация в первой половине вашего ответа не совсем точна, что, как мне кажется, подразумевается использованием «ранних графических моделей» (должно быть «очень очень рано»). В течение очень долгого времени графические модели использовались для изучения всех аспектов его архитектуры так же, как нейронные сети. Но ваше последующее предположение о том, что сигмоиды занимают место гауссиан в факторных графах, интересно!

— GuSuku

4

Рэдфорд Нил проделал большую работу в этой области, которая может вас заинтересовать, включая некоторую прямую работу по приравниванию байесовских графических моделей с нейронными сетями. (Его диссертация была явно на эту конкретную тему.)

Я не достаточно знаком с этой работой, чтобы дать разумное резюме, но я хотел дать вам указатель на случай, если вы найдете это полезным.

— lmjohns3
источник

Из того, что я понимаю из работ Нила, Маккея и т. Д., Они используют байесовскую оптимизацию, где параметры для оптимизации - это нейронные веса и смещения, и даже собирается показать, что нормализация нейронов L2 может рассматриваться как гауссовский приоритет перед веса. Эта программа продолжает включать количество скрытых слоев, нейронов в каждом слое и т. Д. Среди переменных оптимизации.

— GuSuku

Но это отличается от того, о чем спрашивал ОП, потому что разработка архитектуры нейронной сети для опробования в следующем прогоне - это всего лишь один особый случай экспериментального проектирования с использованием байесовских моделей в качестве механизма гиперпроектирования. Я думаю, что ОП требовал сопоставления между нейронной сетью и байесовским моделированием на «том же уровне».

— GuSuku

4

Это может быть старая тема, но все еще актуальный вопрос.

Наиболее ярким примером связи между нейронными сетями (NN) и вероятностными графическими моделями (PGM) является пример между машинами Больцмана (и его вариациями, такими как Restricted BM, Deep BM и т. Д.) И неориентированными PGM Марковского случайного поля.

Точно так же Сети веры (и их разновидности, такие как Deep BN и т. Д.) Являются типом направленных PGM байесовских графов.

Для получения дополнительной информации см .:

Ян Лекун, « Учебник по энергетическому обучению » (2006)
Йошуа Бенжио, Ян Гудфеллоу и Аарон Курвиль, «Глубокое обучение», гл. 16 и 20 (книга в процессе подготовки, на момент написания этой статьи)

— Gusuku
источник