Современные случаи использования машин Больцмана с ограничениями (RBM)?


16

Справочная информация: Многие современные исследования за последние ~ 4 года (post alexnet ), похоже, отошли от использования генеративной предварительной подготовки для нейронных сетей для достижения современных результатов классификации.

Например, лучшие результаты для mnist здесь включают только 2 статьи из 50 лучших, которые, кажется, используют генеративные модели, обе из которых являются RBM. Остальные 48 работ-победителей посвящены различным дискриминационным архитектурам прямой связи, при этом большое внимание уделяется поиску инициализирующих и новых функций веса и функций, отличных от сигмовидной, используемой в RBM и во многих старых нейронных сетях.

Вопрос: Есть ли какая-либо современная причина, чтобы больше использовать Машины с Ограниченным Больцманом?

Если нет, существует ли де-факто модификация, которую можно применить к этим архитектурам прямой связи, чтобы сделать любой из их уровней генеративным?

Мотивация: я спрашиваю, потому что некоторые из моделей, которые я вижу доступными, обычно варианты в RBM, не обязательно имеют очевидные аналогичные дискриминационные аналоги этим генеративным слоям / моделям, и наоборот. Например:

  • mcRBM

  • ssRBM

  • CRBM (хотя можно утверждать, что архитектуры прямой связи, используемые CNN, являются дискриминационной аналогичной архитектурой)

Кроме того, это были явно предварительные данные, начиная с 2010, 2011 и 2009 годов с уважением.


3
Для удовольствия я построил генеративную прямую передачу NN посредством авторегрессии. power2predict.edublogs.org/2016/06/26/…
Крис

Ответы:


6

Это своего рода старый вопрос, но, поскольку он по существу требует «лучших практик», а не того, что на самом деле технически возможно (т. Е. Не требует слишком большой исследовательской направленности), текущие лучшие практики выглядят примерно так:

  • RBM обычно не используются в настоящее время
  • по возможности используются линейные модели (линейная регрессия, логистическая регрессия)
  • в противном случае - глубокие сети прямой связи со слоями, такими как полностью связанные слои, сверточные слои и добавление каких-либо уровней регуляризации, таких как выпадение и последующая нормализация партии
  • конечно, между слоями активации, обычно ReLU, но также используются tanh и сигмоид
  • и, возможно, некоторые максимальные пулы (не всегда: используются средние и другие)

Для генеративного использования общие методы включают в себя:


1

Недавно я нашел эту статью о «закодированных противником Больцмана противоборствующих машинах», которая объединяет RBM с CNN как генеративную модель.

Авторы показывают, что это математически «лучше» в некотором смысле, и показывают несколько игрушечных примеров, где BEAM кажется гораздо более способным к точному изучению распределения данных по сравнению с другими моделями GAN.

Тест «реального мира» для лиц CelebA был гораздо менее впечатляющим - не ясно, что BEAM работает лучше или даже лучше, чем другие популярные GAN. Тем не менее, использование RBM в этих условиях, безусловно, интересно.


Как вы думаете, эта ошибка связана с пространством поиска BEAM, допускающим больший набор степеней свободы, свойственных определению модели?
Васс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.