Что такое предварительная подготовка и как вы обучаете нейронную сеть?

10

Я понимаю, что предварительная подготовка используется, чтобы избежать некоторых проблем с обычным обучением. Если я использую обратное распространение, скажем, с помощью автоматического кодера, я знаю, что у меня возникнут проблемы со временем, потому что обратное распространение идет медленно, а также что я могу застрять в локальном оптимуме и не изучить некоторые функции.

Чего я не понимаю, так это как мы готовим сеть и что конкретно делаем, чтобы подготовить. Например, если бы нам дали стек ограниченных машин Больцмана, как бы мы подготовили эту сеть?

— Майкл Юсеф
источник

2

Если вы не находитесь в обстановке с несколькими маркированными и многими немаркированными образцами, предварительная подготовка считается устаревшей. Если это не так, использование функции передачи выпрямителя и продвинутых оптимизаторов (rmsprop, adadelta, adam) одинаково хорошо работает для глубоких нейронных сетей.

f (x) = max (x, 0)

$f(x) = \max(x, 0)$

— Bayerj

Да, я работаю в предположении, что существует большое количество немеченых образцов и мало или не помечено образцов.

— Майкл Юсеф

2

Вы начинаете с тренировки каждого RBM в стеке отдельно, а затем объединяетесь в новую модель, которая может быть дополнительно настроена.

Предположим, у вас есть 3 RBM, вы тренируете RBM1 со своими данными (например, кучей изображений). RBM2 обучен с выходом RBM1. RBM3 обучен с выходом RBM2. Идея состоит в том, что каждая модель RBM имеет характерные для изображений изображения, и веса, которые они изучают при этом, полезны в других дискриминационных задачах, таких как классификация.

— mnagaraj
источник

0

Предварительная подготовка штабелированных RBM должна жадно послойно минимизировать определенную энергию, то есть максимизировать вероятность. Г. Хинтон предложил алгоритм CD-k, который можно рассматривать как одну итерацию выборки Гиббса.

— Моу
источник

Таким образом, предварительная подготовка штабелированных RBM позволяет нам минимизировать определенную энергию и получить лучшие результаты. И тогда алгоритм контрастивной дивергенции Хинтона - это то, как мы на самом деле проводим предварительную подготовку. Как именно подготовка влияет на изучение дополнительных функций? Я предполагаю, что для проблемы скорости алгоритм CD намного быстрее, чем обратное распространение.

— Майкл Юсеф