Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели.
Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного превосходит все, что я пробовал (для нескольких наборов данных). Я продолжаю думать про себя: «Почему / когда бы вы не использовали LSTM?». Использование дополнительных затворов, присущих LSTM, имеет для меня прекрасный смысл после того, как у меня появилось несколько моделей, которые страдают от исчезающих градиентов.
Так в чем же подвох с LSTM? Где они не так хорошо? Я знаю, что не существует такого понятия, как алгоритм «один размер подходит всем», поэтому у LSTM должна быть обратная сторона.