Все RNN имеют петли обратной связи на рекуррентном уровне. Это позволяет им сохранять информацию в памяти с течением времени. Но может быть трудно обучить стандартные RNN для решения проблем, которые требуют изучения долгосрочных временных зависимостей. Это связано с тем, что градиент функции потерь экспоненциально убывает со временем (это называется проблемой исчезающего градиента). Сети LSTM - это тип RNN, который использует специальные единицы в дополнение к стандартным единицам. Блоки LSTM включают «ячейку памяти», которая может хранить информацию в памяти в течение длительных периодов времени. Набор вентилей используется для контроля, когда информация поступает в память, когда она выводится и когда она забывается. Эта архитектура позволяет им изучать долгосрочные зависимости. ГРУ похожи на LSTM, но используют упрощенную структуру.
Эта статья дает хороший обзор:
Chung et al. (2014) . Эмпирическая оценка рекуррентных нейронных сетей на основе моделирования последовательностей.