Предотвращение перенастройки LSTM на небольшой набор данных

Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность проверки начинает снижаться, когда точность обучения начинает расти - явный признак переоснащения.

Поэтому я думаю о способах сделать регуляризацию. Я бы предпочел не уменьшать количество скрытых юнитов (128 уже кажется немного низким). В настоящее время я использую отсев с вероятностью 50%, но это может быть увеличено. Оптимизатором является Адам с параметрами по умолчанию для Keras ( http://keras.io/optimizers/#adam ).

Каковы эффективные способы уменьшения переобученности для этой модели в моем наборе данных?

— PIR
источник

У меня точно такая же проблема. Как вам наконец удалось упорядочить свой LSTM? Точность проверки моего LSTM составляет 41%. Моя входная форма (200,), и у меня есть 1 слой LSTM с 64 единицами, а затем 2 плотных слоя с выпадением 0,4.

— Нирван Анджирбаг

Вы можете попробовать:

Уменьшите количество скрытых юнитов, я знаю, вы сказали, что оно уже кажется низким, но, учитывая, что входной слой имеет только 80 функций, на самом деле 128 может быть слишком много. Основное правило заключается в том, чтобы количество скрытых единиц находилось между количеством единиц ввода (80) и классов вывода (5);
В качестве альтернативы, вы можете увеличить размер входного пространства представления до более чем 80 (однако это может также подойти, если представление уже слишком узкое для любого заданного слова).

Хороший способ приспособить сеть - начать с переоснащения сети, а затем уменьшать емкость (скрытые блоки и пространство для встраивания) до тех пор, пока она не перестанет соответствовать.

— Miguel
источник

Вы пробовали регуляризацию l1 и l2? Это на самом деле работает? Этот ответ предполагает, что вы не должны делать это вообще

— Якуб Барчук

Я не знал об этом свойстве RNNs, я удалю этот пункт ответа

— Мигель

Здравствуйте, мне было интересно, как вы получили эмпирическое правило, которое гласит, что «количество скрытых единиц должно быть между числом входных единиц и выходных классов». Есть ли бумага, на которую я могу сослаться?

— Конг

Вот что касается эмпирических правил, я не знаю, откуда я это взял ...

— Мигель