Так в чем же подвох с LSTM?

Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели.

Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного превосходит все, что я пробовал (для нескольких наборов данных). Я продолжаю думать про себя: «Почему / когда бы вы не использовали LSTM?». Использование дополнительных затворов, присущих LSTM, имеет для меня прекрасный смысл после того, как у меня появилось несколько моделей, которые страдают от исчезающих градиентов.

Так в чем же подвох с LSTM? Где они не так хорошо? Я знаю, что не существует такого понятия, как алгоритм «один размер подходит всем», поэтому у LSTM должна быть обратная сторона.

— I_Play_With_Data
источник

Попробуйте GRU, они похожи на LSTM, но требуют меньше памяти и тренируются быстрее.

— Вивек Хетан

Вы правы, что LSTM очень хорошо работают для некоторых проблем, но некоторые недостатки:

LSTM тренируются дольше
LSTM требуют больше памяти для обучения
LSTM легко надеть
Dropout гораздо сложнее реализовать в LSTM
LSTM чувствительны к различным случайным инициализациям веса

Это по сравнению с более простой моделью, такой как, например, 1-мерная сеть.

Первые три пункта потому, что у LSTM больше параметров.

— Имран
источник

Согласен, и я думаю, что переоснащение (иначе плохое обобщение), возможно, самый большой риск. Убедитесь, что у вас есть хорошая стратегия для проверки модели.

— Том