Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему?
Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, я использую LSTM для классификации текста (где текст сначала преобразуется в векторы слов).
Наконец, будут ли ответы одинаковыми или разными для RNN? Любые указатели на научные статьи, или личное понимание будет высоко ценится!
LSTM кажутся достаточно мощными, и мне интересно узнать больше о том, как их лучше всего использовать.