Почему Q-Learning использует эпсилон-жадный во время тестирования?

18

В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и основывается на значении эпсилона, и эпсилон отжигается во время обучения таким образом, что первоначально выполняется много случайных действий (исследование), но в ходе обучения выполняется множество действий с максимальными значениями q. (эксплуатация).

Затем, во время тестирования, они также используют этот эпсилон-жадный метод, но с эпсилоном с очень низким значением, так что существует сильный уклон в сторону эксплуатации по сравнению с разведкой, предпочитая выбирать действие с наибольшим значением q вместо случайного действия. Тем не менее, случайные действия все еще иногда выбираются (5% времени).

Мои вопросы: зачем вообще нужна какая-либо разведка на данный момент, учитывая, что обучение уже проведено? Если система изучила оптимальную политику, то почему нельзя всегда выбирать действие, которое имеет наибольшее значение q? Разве исследование не должно проводиться только в процессе обучения, а затем, когда оптимальная политика изучена, агент может просто повторно выбрать оптимальное действие?

Благодарность!

— Karnivaurus
источник

Это может как-то быть связано с детерминистической природой среды ALE. Если вы не выполняете случайные действия во время вычислений, вы всегда будете выполнять одну и ту же последовательность действий (поскольку последовательность состояний одинакова). Они также делают случайные запуски - по этой причине ждут до 30 кадров, ничего не делая.

— йобибайт

10

В газете о природе они упоминают:

Обученные агенты оценивали, играя каждую игру 30 раз в течение до 5 минут каждый раз с различными начальными случайными условиями ('noop'; см. Таблицу расширенных данных 1) и политикой электронного жадности с epsilon 0.05. Эта процедура принята, чтобы минимизировать возможность переоснащения во время оценки.

Я думаю, что они имеют в виду «свести на нет негативные последствия чрезмерного / недостаточного соответствия». Использование epsilon of 0 - это полностью эксплуататорский (как вы указали) выбор, который делает сильное заявление.

Например, рассмотрим лабиринтную игру, в которой текущие Q-оценки агента сходятся к оптимальной политике, за исключением одной сетки, где он жадно выбирает движение к границе, в результате чего он остается в той же сетке. Если агент достигает любого такого состояния и выбирает действие Max Q, он застрянет там на вечность. Однако сохранение в своей политике неопределенно исследовательского / стохастического элемента (например, небольшого количества эпсилона) позволяет ему выйти из таких состояний.

Сказав это, из реализаций кода, которые я рассматривал (и сам кодировал) на практике, производительность часто измеряется жадной политикой по точным причинам, указанным в вашем вопросе.

— Zhubarb
источник

3

$\epsilon\ = 0.05$

— papabiceps
источник

2

Я думаю, что цель тестирования состоит в том, чтобы понять, как система реагирует в реальных ситуациях.

$\epsilon$

Вариант 2:
Если они боятся быть хрупкими, играя против менее «рационального» игрока, то они могут «отжигать» свои тренировочные результаты, чтобы не переоценить их.

Вариант 3:
это их волшебный дым. Там будут кусочки, которыми они не могут и не хотят делиться. Они могут публиковать это, чтобы скрыть что-то запатентованное или исключительно актуальное для своего бизнеса, которым они не хотят делиться.

Вариант 4.
Они могут использовать повторные тесты и различные значения эпсилона, чтобы проверить, сколько «жира» осталось в системе. Если они имели слабую рандомизацию или так много выборок, что даже справедливая рандомизация начинает повторяться, тогда метод мог бы «выучить» неверное поведение, которое можно сделать для псевдослучайного смещения. Это может позволить проверить это на этапе тестирования.

Я уверен, что есть еще полдюжины других значимых причин, но я подумал об этом.

РЕДАКТИРОВАТЬ: примечание к себе, мне действительно нравится "хрупкая" мысль. Я думаю, что это может быть экзистенциальная слабость промежуточного ИИ первого поколения.

— EngrStudent - Восстановить Монику
источник

1

$\epsilon$

$\epsilon$ $\epsilon = 0.05$

Тем более что предварительно обработанные входные данные содержат историю ранее обнаруженных состояний, проблема заключается в том, что вместо того, чтобы обобщать основной игровой процесс, агент просто запоминает оптимальные траектории для этой конкретной игры и воспроизводит их во время фазы тестирования; это то, что подразумевается под «возможностью переоснащения во время оценки» . Для детерминированных сред это очевидно, но и для стохастических переходов состояний может происходить запоминание (т.е. переоснащение). Использование рандомизации во время фазы тестирования в виде неактивных запусков произвольной длины, а также части случайных действий во время игры вынуждает алгоритм работать с непредвиденными состояниями и, следовательно, требует некоторой степени обобщения.

$\epsilon$ $\epsilon = 0$ во время тестирования потенциально может улучшить производительность, но суть в том, чтобы показать способность обобщать. Кроме того, в большинстве игр Atari государство также развивается в неоперативном режиме, поэтому агент, естественно, «отклеится», если это когда-нибудь произойдет. Учитывая приведенный в другом месте пример лабиринта, в котором среда не развивается при отсутствии операций, агент быстро узнает, что столкновение со стеной не является хорошей идеей, если награда сформирована правильно (-1 для каждого шага, например); особенно при использовании оптимистичных начальных значений требуемая разведка происходит естественно. Если вы все-таки обнаружите, что ваш алгоритм застревает в некоторых ситуациях, это означает, что вам нужно увеличить время обучения (т.е. запустить больше эпизодов), вместо того, чтобы вводить некоторую вспомогательную рандомизацию в отношении действий.

Однако, если вы работаете в среде с развивающейся динамикой системы (то есть переходами или изменениями состояния с течением времени), вы должны сохранить некоторую степень исследования и соответственно обновить свою политику, чтобы не отставать от изменений.

— Гость
источник