Это тонкий вопрос.
Если вы посмотрите на алгоритм A3C в оригинальной статье (стр.4 и приложение S3 для псевдокода), их алгоритм критика актера (тот же алгоритм, как эпизодические, так и продолжающиеся проблемы) отключен с коэффициентом гаммы относительно актера. псевдокод критика для эпизодических проблем в книге Саттона и Барто (стр. 322 издания января 2019 г. http://incompleteideas.net/book/the-book.html ). Книга Саттона и Барто имеет дополнительную «первую» гамму, как указано на вашей картинке. Итак, книга или бумага A3C не так? На самом деле, нет.
Ключ находится на стр. 199 из книги Саттона и Барто:
Если существует дисконтирование (гамма <1), его следует рассматривать как форму завершения, что можно сделать, просто включив множитель во второе слагаемое в (9.2).
Тонкая проблема заключается в том, что существует две интерпретации коэффициента дисконтирования гаммы:
- Мультипликативный фактор, который придает меньший вес отдаленным будущим наградам.
- Вероятность 1 - гамма, что моделируемая траектория внезапно завершается в любой момент времени. Эта интерпретация имеет смысл только для эпизодических случаев, а не для продолжающихся случаев.
Литеральные реализации:
- Просто умножьте будущие награды и связанные с ними величины (V или Q) в будущем на гамму.
- Смоделируйте некоторые траектории и случайным образом прекратите (1 - гамма) из них на каждом временном шаге. Прекращенные траектории не дают немедленных или будущих вознаграждений.
G∇lnπ(a|s)
γ2G∇lnπ(a|s)0.81G∇lnπ(a|s)
G∇lnπ(a|s)G
Вы можете выбрать любую интерпретацию гаммы, но вы должны помнить о последствиях для алгоритма. Я лично предпочитаю придерживаться интерпретации 1 только потому, что это проще. Поэтому я использую алгоритм в статье A3C, а не в книге Саттона и Барто.
Ваш вопрос был об алгоритме REINFORCE, но я обсуждаю актера-критика. У вас точно такая же проблема, связанная с двумя гамма-интерпретациями и дополнительной гаммой в REINFORCE.