Так в чем же подвох с LSTM?


12

Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели.

Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного превосходит все, что я пробовал (для нескольких наборов данных). Я продолжаю думать про себя: «Почему / когда бы вы не использовали LSTM?». Использование дополнительных затворов, присущих LSTM, имеет для меня прекрасный смысл после того, как у меня появилось несколько моделей, которые страдают от исчезающих градиентов.

Так в чем же подвох с LSTM? Где они не так хорошо? Я знаю, что не существует такого понятия, как алгоритм «один размер подходит всем», поэтому у LSTM должна быть обратная сторона.


Попробуйте GRU, они похожи на LSTM, но требуют меньше памяти и тренируются быстрее.
Вивек Хетан

Ответы:


11

Вы правы, что LSTM очень хорошо работают для некоторых проблем, но некоторые недостатки:

  • LSTM тренируются дольше
  • LSTM требуют больше памяти для обучения
  • LSTM легко надеть
  • Dropout гораздо сложнее реализовать в LSTM
  • LSTM чувствительны к различным случайным инициализациям веса

Это по сравнению с более простой моделью, такой как, например, 1-мерная сеть.

Первые три пункта потому, что у LSTM больше параметров.


3
Согласен, и я думаю, что переоснащение (иначе плохое обобщение), возможно, самый большой риск. Убедитесь, что у вас есть хорошая стратегия для проверки модели.
Том
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.