В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между наблюдениями.
Пожалуйста, кто-нибудь может объяснить, что это значит? Является ли это формой переоснащения, когда нейронная сеть изучает некоторую структуру, которая присутствует в обучении, но может не присутствовать при тестировании? Или это означает что-то еще?
Документ можно найти по адресу : http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html.
И раздел, который я пытаюсь понять, это:
Известно, что обучение подкреплению нестабильно или даже расходится, когда для представления функции-значения (также известной как Q) используется аппроксиматор нелинейной функции, такой как нейронная сеть. Эта нестабильность имеет несколько причин: корреляции, присутствующие в последовательности наблюдений, тот факт, что небольшие обновления Q могут значительно изменить политику и, следовательно, изменить распределение данных, а также корреляции между значениями действия и целевыми значениями.
Мы решаем эти проблемы с помощью нового варианта Q-обучения, в котором используются две ключевые идеи. Во-первых, мы использовали биологически вдохновленный механизм, называемый повторением опыта, который рандомизирует данные, тем самым устраняя корреляции в последовательности наблюдений и сглаживая изменения в распределении данных. Во-вторых, мы использовали итеративное обновление, которое корректирует значения действия (Q) в соответствии с целевыми значениями, которые обновляются только периодически, тем самым уменьшая корреляции с целью.