Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность проверки начинает снижаться, когда точность обучения начинает расти - явный признак переоснащения.
Поэтому я думаю о способах сделать регуляризацию. Я бы предпочел не уменьшать количество скрытых юнитов (128 уже кажется немного низким). В настоящее время я использую отсев с вероятностью 50%, но это может быть увеличено. Оптимизатором является Адам с параметрами по умолчанию для Keras ( http://keras.io/optimizers/#adam ).
Каковы эффективные способы уменьшения переобученности для этой модели в моем наборе данных?