Ключевая часть цитируемого текста:
Для воспроизведения опыта мы сохраняем опыт агента еT= ( сT,T, гT, ст + 1)
Это означает, что вместо запуска Q-обучения для пар состояние / действие, когда они происходят во время симуляции или реального опыта, система сохраняет данные, обнаруженные для [состояние, действие, вознаграждение, следующее_стадия] - обычно в большой таблице. Обратите внимание, что в нем не хранятся связанные значения - это необработанные данные для последующего расчета в действии.
Затем этап обучения логически отделен от приобретения опыта и основан на взятии случайных выборок из этой таблицы. Вы по-прежнему хотите чередовать два процесса - действие и обучение - потому что улучшение политики приведет к другому поведению, которое должно исследовать действия, более близкие к оптимальным, и вы хотите извлечь уроки из них. Тем не менее, вы можете разделить это так, как вам нравится - например, сделать один шаг, учиться на трех случайных предыдущих шагах и т. Д. Цели Q-Learning при использовании повторения опыта используют те же цели, что и онлайн-версия, поэтому новой формулы для этого не существует. Данная формула потерь также является той, которую вы использовали бы для DQN без повторного опыта. Разница лишь в том, какие s, a, r, s ', a' вы в нее кормите.
В DQN команда DeepMind также поддерживала две сети и переключала, какая из них изучала, а какая из них использовала текущие оценки стоимости действия как «начальные загрузки». Это помогло в стабильности алгоритма при использовании нелинейного аппроксиматора функции. Вот что обозначает строка в - она обозначает альтернативную замороженную версию весов.θ ¯i
Преимущества опыта воспроизведения:
Более эффективное использование предыдущего опыта благодаря многократному обучению. Это является ключевым моментом, когда получение реального опыта обходится дорого, вы можете в полной мере использовать его. Обновления Q-обучения являются инкрементными и не сходятся быстро, поэтому многократные проходы с одними и теми же данными полезны, особенно когда существует небольшая разница в непосредственных результатах (награда, следующее состояние) при одном и том же состоянии, паре действий.
Лучшее поведение сходимости при обучении аппроксиматора функции. Частично это связано с тем, что данные больше похожи на данные iid, используемые в большинстве доказательств сходимости обучения под наблюдением.
Недостаток опыта воспроизведения:
- Труднее использовать многошаговые алгоритмы обучения, такие как Q ( ), которые можно настроить, чтобы получить лучшие кривые обучения, балансируя между смещением (из-за начальной загрузки) и дисперсией (из-за задержек и случайности в долгосрочных результатах ). Многошаговый DQN с повторением опыта DQN - это одно из расширений, рассмотренных в статье « Радуга: объединение улучшений в обучении глубокому подкреплению» .λ
Подход, используемый в DQN, кратко описан Дэвидом Сильвером в некоторых частях этой видео-лекции (около 01:17:00, но стоит посмотреть разделы до него). Я рекомендую посмотреть всю серию, которая является курсом повышения квалификации по обучению подкреплению, если у вас есть время.