Вопросы с тегом «reinforce»

3
Почему ставка дисконта в алгоритме REINFORCE появляется дважды?
Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.). На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.