Вопросы с тегом «temporal-difference»

2
Когда методы Монте-Карло предпочтительнее, чем временные?
В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло и временную разность (DP). У меня проблема в том, что …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.