Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является ли эпоха внешним циклом вокруг цикла эпизодов?
1
Итак ... сколько эпизодов составляют эпоху?
—
Lewen