Почему ставка дисконта в алгоритме REINFORCE появляется дважды?

11

Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.).

На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в состоянии обновления и второй раз внутри возврата. [Смотрите рисунок ниже]

Кажется, что возврат для шагов после шага 1 является просто усечением возврата первого шага. Кроме того, если вы посмотрите на одну страницу выше в книге, вы найдете уравнение с 1-й дисконтной ставкой (той, что внутри возврата).

Почему тогда псевдокод кажется другим? Я думаю, что я что-то неправильно понимаю:

\begin{matrix} (13.6) & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π (A_{t} | S_{t}, θ_{t})}{π (A_{t} | S_{t}, θ_{t})} . \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— Диего Орельяна
источник

5

Коэффициент дисконтирования появляется дважды, и это правильно.

Это связано с тем, что функция, которую вы пытаетесь максимизировать в REINFORCE для эпизодической проблемы (принимая градиент), представляет собой ожидаемый возврат из заданного (распределения) начального состояния:

J (θ) = E_{π (θ)} [G_{t} | S_{t} = s_{0}, t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

$G_1$ $G_2$ $\gamma = 0$

$J(\theta)$ $\gamma^t$

— Нил Слэйтер
источник

5

$\gamma^t$

Я просто хотел бы дополнительно уточнить, что вы, похоже, ничего не понимаете. Уравнение (13.6) в книге действительно отличается от псевдокода .

Теперь у меня нет издания книги, которое вы упомянули здесь, но у меня есть более поздний вариант от 22 марта 2018 года, и текст по этой конкретной теме, похоже, похож. В этом выпуске:

$\gamma = 1$
Это доказательство в конечном итоге приводит к тому же уравнению (13.6) на стр. 329.
$\gamma = 1$
$\gamma < 1$

— Деннис Соемерс
источник

2

Спасибо. Объяснение вашего третьего пункта отсутствовало в проекте 2017 года.

— Диего Орельяна

2

@DiegoOrellana Я больше не могу найти ссылку на черновик от 22 марта, кажется, здесь есть еще более поздний черновик (не могу найти указанную дату) здесь . Эта версия на самом деле имеет необычную обложку, поэтому она может быть даже окончательной версией, а не черновиком. Если в будущем ссылка будет разорвана, я подозреваю, что новая ссылка будет доступна здесь .

— Деннис Соемерс

3

Это тонкий вопрос.

Если вы посмотрите на алгоритм A3C в оригинальной статье (стр.4 и приложение S3 для псевдокода), их алгоритм критика актера (тот же алгоритм, как эпизодические, так и продолжающиеся проблемы) отключен с коэффициентом гаммы относительно актера. псевдокод критика для эпизодических проблем в книге Саттона и Барто (стр. 322 издания января 2019 г. http://incompleteideas.net/book/the-book.html ). Книга Саттона и Барто имеет дополнительную «первую» гамму, как указано на вашей картинке. Итак, книга или бумага A3C не так? На самом деле, нет.

Ключ находится на стр. 199 из книги Саттона и Барто:

Если существует дисконтирование (гамма <1), его следует рассматривать как форму завершения, что можно сделать, просто включив множитель во второе слагаемое в (9.2).

Тонкая проблема заключается в том, что существует две интерпретации коэффициента дисконтирования гаммы:

Мультипликативный фактор, который придает меньший вес отдаленным будущим наградам.
Вероятность 1 - гамма, что моделируемая траектория внезапно завершается в любой момент времени. Эта интерпретация имеет смысл только для эпизодических случаев, а не для продолжающихся случаев.

Литеральные реализации:

Просто умножьте будущие награды и связанные с ними величины (V или Q) в будущем на гамму.
Смоделируйте некоторые траектории и случайным образом прекратите (1 - гамма) из них на каждом временном шаге. Прекращенные траектории не дают немедленных или будущих вознаграждений.

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

Вы можете выбрать любую интерпретацию гаммы, но вы должны помнить о последствиях для алгоритма. Я лично предпочитаю придерживаться интерпретации 1 только потому, что это проще. Поэтому я использую алгоритм в статье A3C, а не в книге Саттона и Барто.

Ваш вопрос был об алгоритме REINFORCE, но я обсуждаю актера-критика. У вас точно такая же проблема, связанная с двумя гамма-интерпретациями и дополнительной гаммой в REINFORCE.

— toto2
источник