Я тренирую модель (Recurrent Neural Network), чтобы классифицировать 4 типа последовательностей. Во время тренировок я вижу, что потери тренировок снижаются до того момента, когда я правильно классифицирую более 90% образцов в моих тренировочных партиях. Однако спустя пару эпох я замечаю, что потеря тренировок увеличивается и моя точность падает. Это кажется мне странным, так как я ожидаю, что на тренировочной площадке производительность должна улучшаться со временем, а не ухудшаться. Я использую перекрестную потерю энтропии, и моя скорость обучения составляет 0,0002.
Обновление: оказалось, что скорость обучения была слишком высокой. При низкой и достаточно низкой скорости обучения я не наблюдаю такого поведения. Однако я все еще нахожу это странным. Любые хорошие объяснения приветствуются, почему это происходит