Преимущества штабелирования LSTM?

14

Мне интересно, в каких ситуациях выгодно складывать LSTM?

— Вадим Смоляков
источник

3

stats.stackexchange.com/questions/163304/… может быть полезно получить идею ??

— 17

7

Из чего заключаются преимущества объединения нескольких LSTM? (Я только обновлю ответ там):

С 1}:

Хотя теоретически не ясно, какова дополнительная мощность, получаемая более глубокой архитектурой, эмпирически было замечено, что глубокие RNN работают лучше, чем более мелкие, в некоторых задачах. В частности, Sutskever и соавторы (2014) сообщают, что четырехуровневая глубокая архитектура имела решающее значение для достижения хороших характеристик машинного перевода в среде кодер-декодер. Irsoy и Cardie (2014) также сообщают об улучшенных результатах перехода от однослойного BI-RNN к архитектуре с несколькими уровнями. Многие другие работы сообщают о результате использования многоуровневых архитектур RNN, но явно не сравнивают с одноуровневыми RNN.

Ссылки:

{1} Гольдберг, Йоав. «Учебник по нейросетевым моделям для обработки естественного языка». J. Artif. Интелл. Res. (JAIR) 57 (2016): 345-420. https://scholar.google.com/scholar?cluster=3704132192758179278&hl=en&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf

— Франк Дернонкур
источник

4

Одна из ситуаций, в которой выгодно складывать LSTM, - это когда мы хотим изучить иерархическое представление наших данных временных рядов. В сложенных LSTM каждый уровень LSTM выводит последовательность векторов, которые будут использоваться в качестве входных данных для последующего уровня LSTM. Эта иерархия скрытых слоев обеспечивает более сложное представление данных временных рядов, собирая информацию в разных масштабах.

Например, стекированные LSTM могут использоваться для повышения точности классификации временных рядов, таких как прогнозирование активности, при котором частота сердечных сокращений, счетчик шагов, GPS и другие сигналы могут использоваться для прогнозирования активности, такой как ходьба, бег, езда на велосипеде, подниматься по лестнице или отдыхать. Для примера классификации временных рядов со сложенными LSTM с использованием данных ЭЭГ взгляните на следующую записную книжку ipython .

— Вадим Смоляков
источник

1

От последовательности к модели последовательности: Работа сети кодировщика заключается в считывании входной последовательности в нашу модель Seq2Seq и создании фиксированного размерного вектора C для последовательности. Для этого кодер будет использовать рекуррентную ячейку нейронной сети - обычно LSTM - для чтения входных токенов по одному. Конечное скрытое состояние ячейки затем станет C. Однако, поскольку так сложно сжать последовательность произвольной длины в один вектор фиксированного размера (особенно для сложных задач, таких как перевод), кодер обычно состоит из сложенных LSTM : серия «слоев» LSTM, где выходы каждого слоя являются входной последовательностью для следующего слоя. Скрытое состояние LSTM последнего слоя будет использоваться в качестве вектора контекста.

— Умер Рана
источник