Какие методы оптимизации лучше всего подходят для LSTM?

20

Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему?

Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, я использую LSTM для классификации текста (где текст сначала преобразуется в векторы слов).

Наконец, будут ли ответы одинаковыми или разными для RNN? Любые указатели на научные статьи, или личное понимание будет высоко ценится!

LSTM кажутся достаточно мощными, и мне интересно узнать больше о том, как их лучше всего использовать.

— яблочный сидр
источник

7

По иронии судьбы лучшими оптимизаторами для LSTM являются сами LSTM: https://arxiv.org/abs/1606.04474 Учиться учиться с помощью градиентного спуска и градиентного спуска.

Основная идея состоит в том, чтобы использовать нейронную сеть (в частности, здесь сеть LSTM) для совместного обучения и обучения градиентам исходной сети. Это называется мета-обучение.

Хотя этот метод был предложен Юргеном Шмидхубером в 2000 году, только недавно было показано, что он превосходит другие оптимизаторы в обучении RNN. (см. оригинальную статью для хорошей графики)

— Anona112
источник

Можете ли вы расширить, рассказав нам, что говорит ссылка?

— августа

исправлено для вашего удовольствия. Поскольку первоначальный вопрос был «Какие методы оптимизации работают лучше всего для LSTM?» не «Как работают лучшие методы оптимизации для LSTM», я оставлю это на этом.

— Anona112

4

В целом нет четких доказательств того, какой метод оптимизации использовать в каком сценарии. Был проведен некоторый анализ поведения этих методов при различных сценариях, однако ничто не является окончательным. Если вы хотите погрузиться в это, то я рекомендую: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

Чтобы хотя бы дать вам какой-то ответ, я бы сказал, что часто конфигурация вашей процедуры оптимизации важнее, чем сама процедура.

Кроме того, я рекомендую вам заглянуть в документы, чтобы увидеть, какие методы используются. Алекс Грейвс из примера выиграл от использования RMSprop в большинстве своих публикаций о генерации последовательностей.

— Сьерд
источник