В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и основывается на значении эпсилона, и эпсилон отжигается во время обучения таким образом, что первоначально выполняется много случайных действий (исследование), но в ходе обучения выполняется множество действий с максимальными значениями q. (эксплуатация).
Затем, во время тестирования, они также используют этот эпсилон-жадный метод, но с эпсилоном с очень низким значением, так что существует сильный уклон в сторону эксплуатации по сравнению с разведкой, предпочитая выбирать действие с наибольшим значением q вместо случайного действия. Тем не менее, случайные действия все еще иногда выбираются (5% времени).
Мои вопросы: зачем вообще нужна какая-либо разведка на данный момент, учитывая, что обучение уже проведено? Если система изучила оптимальную политику, то почему нельзя всегда выбирать действие, которое имеет наибольшее значение q? Разве исследование не должно проводиться только в процессе обучения, а затем, когда оптимальная политика изучена, агент может просто повторно выбрать оптимальное действие?
Благодарность!