Почему обучение глубокому подкреплению нестабильно?

В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между наблюдениями.

Пожалуйста, кто-нибудь может объяснить, что это значит? Является ли это формой переоснащения, когда нейронная сеть изучает некоторую структуру, которая присутствует в обучении, но может не присутствовать при тестировании? Или это означает что-то еще?

Документ можно найти по адресу : http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html.

И раздел, который я пытаюсь понять, это:

Известно, что обучение подкреплению нестабильно или даже расходится, когда для представления функции-значения (также известной как Q) используется аппроксиматор нелинейной функции, такой как нейронная сеть. Эта нестабильность имеет несколько причин: корреляции, присутствующие в последовательности наблюдений, тот факт, что небольшие обновления Q могут значительно изменить политику и, следовательно, изменить распределение данных, а также корреляции между значениями действия и целевыми значениями.

Мы решаем эти проблемы с помощью нового варианта Q-обучения, в котором используются две ключевые идеи. Во-первых, мы использовали биологически вдохновленный механизм, называемый повторением опыта, который рандомизирует данные, тем самым устраняя корреляции в последовательности наблюдений и сглаживая изменения в распределении данных. Во-вторых, мы использовали итеративное обновление, которое корректирует значения действия (Q) в соответствии с целевыми значениями, которые обновляются только периодически, тем самым уменьшая корреляции с целью.

— Karnivaurus
источник

Чтобы убедиться, что вы обучаете своего агента некоррелированным данным, вам не следует обновлять память агента на каждом этапе, исправьте этап сохранения, чтобы создать декорреляцию в данных.

— Наржес Кармани

Основная проблема заключается в том, что, как и во многих других областях, DNN может быть трудно обучаемым. Здесь одной проблемой является корреляция входных данных: если вы думаете о видеоигре (они на самом деле используют их для проверки своих алгоритмов), вы можете себе представить, что скриншоты, сделанные один за другим, сильно коррелированы: игра развивается «непрерывно». Для NN это может быть проблемой: выполнение множества итераций градиентного спуска на одинаковых и коррелированных входах может привести к их перегрузке и / или падению до локального минимума. Вот почему они используют повтор опыта: они сохраняют серию «снимков» игры, затем перемешивают их и выбирают несколько шагов спустя, чтобы провести тренировку. Таким образом, данные больше не коррелируют. Затем они замечают, как во время обучения значения Q (предсказанные NN) могут изменить текущую политику,

— Dante
источник

Под «перетасованными» данными вы подразумеваете случайные, непоследовательные события, взятые в мини-серии? Как это соответствует «дисконтированной будущей награде», которая, по-видимому, подразумевает последовательный опыт?

— isobretatel