Вопросы с тегом «policy-gradients»

1
Какова связь между методами Q-обучения и политическими градиентами?
Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно предсказывают само действие. Тем не менее, оба подхода кажутся мне идентичными, то есть прогнозирование …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.