Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения 0,001 я достигаю точности 85% и значительно менее плавной кривой обучения. Я не знаю, как объяснить это поведение. Что может быть причиной отсутствия плавности в кривой обучения, а также низкой точности и более высокой частоты ошибок?