Основная проблема с обучением TD и DP состоит в том, что их шаговые обновления смещены на начальные условия параметров обучения. Процесс начальной загрузки обычно обновляет функцию или поиск Q (s, a) на последующем значении Q (s ', a'), используя любые текущие оценки в последнем. Очевидно, что в самом начале обучения эти оценки не содержат информации о каких-либо реальных вознаграждениях или переходах между состояниями.
Если обучение работает так, как задумано, то смещение будет асимптотически уменьшаться в течение нескольких итераций. Однако смещение может вызвать значительные проблемы, особенно для методов вне политики (например, Q Learning) и при использовании аппроксиматоров функций. Эта комбинация, скорее всего, не сможет сойтись, что называется Саттон и Барт смертельной триадой .
Методы контроля Монте-Карло не страдают от этого смещения, поскольку каждое обновление выполняется с использованием истинной выборки того, каким должен быть Q (s, a). Однако методы Монте-Карло могут страдать от высокой дисперсии, что означает, что для достижения той же степени обучения, что и TD, требуется больше образцов.
На практике, обучение TD кажется более эффективным, если можно преодолеть проблемы со смертельной триадой . Недавние результаты с использованием воспроизведения опыта и поэтапных «замороженных» копий оценщиков обеспечивают обходные пути, которые решают проблемы - например, именно так был построен ученик DQN для игр Atari.
Существует также золотая середина между ТД и Монте-Карло. Можно построить обобщенный метод, который объединяет траектории разной длины - от одношаговой ТД до полных серий эпизодов в Монте-Карло - и комбинировать их. Наиболее распространенным вариантом этого является TD ( ) обучение, где - это параметр от (фактически одношаговое обучение TD) до (эффективно обучение по методу Монте-Карло, но с приятной особенностью, которую можно использовать в непрерывном режиме). проблемы). Как правило, значение от до делает наиболее эффективным обучающим агентом - хотя, как и многие гиперпараметры, лучшее значение для использования зависит от проблемы.λ 0 1 0 1λλ0101
Если вы используете метод, основанный на значениях (в отличие от метода, основанного на политике), то обучение TD обычно используется на практике чаще, или метод комбинирования TD / MC, такой как TD (λ), может быть даже лучше.
С точки зрения «практического преимущества» для МС? Изучение Монте-Карло концептуально просто, надежно и легко реализуемо, хотя часто и медленнее, чем TD. Как правило, я бы не использовал его для механизма обучения контроллера (если не спешит реализовать что-то для простой среды), но я бы серьезно рассмотрел его для оценки политики, например, для сравнения нескольких агентов - потому что это непредвзятая мера, которая важна для тестирования.