Вопросы с тегом «adam»

6
Адам оптимизатор с экспоненциальным затуханием
В большинстве кодов Tensorflow, которые я видел, используется Adam Optimizer с постоянной скоростью обучения 1e-4(т.е. 0,0001). Код обычно выглядит следующим образом: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

1
Как работает метод стохастического градиентного спуска Адама?
Я знаком с основными алгоритмами градиентного спуска для обучения нейронных сетей. Я прочитал статью с предложением Адама: АДАМ: МЕТОД СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ . Хотя у меня определенно есть некоторые идеи (по крайней мере), статья кажется мне слишком высокой в ​​целом. Например, функция стоимости часто является суммой множества различных функций, поэтому для …

3
По какой причине Adam Optimizer считается устойчивым к значению своих гиперпараметров?
Я читал об оптимизаторе Адама для Deep Learning и натолкнулся на следующее предложение в новой книге « Deep Learning » Бенджо, Гудфеллоу и Курвилля: Адам, как правило, считается достаточно устойчивым к выбору гиперпараметров, хотя скорость обучения иногда необходимо изменить по сравнению с предложенным значением по умолчанию. если это правда, то …

2
Объяснение Пиков в потере обучения против итераций с Adam Optimizer
Я тренирую нейронную сеть, используя i) SGD и ii) Adam Optimizer. При использовании обычного SGD я получаю плавную кривую потери обучения и итерации, как показано ниже (красная). Тем не менее, когда я использовал Adam Optimizer, кривая тренировочных потерь имела некоторые всплески. Чем объясняются эти спайки? Детали модели: 14 узлов ввода …

1
Почему важно включить термин коррекции смещения для оптимизатора Adam для Deep Learning?
Я читал об оптимизаторе Адама для глубокого обучения и натолкнулся на следующее предложение в новой книге Бегнио, Гудфеллоу и Кортвилла « Глубокое обучение »: Адам включает поправки смещения к оценкам как моментов первого порядка (члена импульса), так и (нецентрированных) моментов второго порядка, чтобы учесть их инициализацию в начале координат. Кажется, …

1
RMSProp и Адам против SGD
Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения 0,001 я …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.