Статистика и большие данные temporal-difference

Когда методы Монте-Карло предпочтительнее, чем временные?

В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло и временную разность (DP). У меня проблема в том, что …

12 monte-carlo reinforcement-learning temporal-difference

Вопросы с тегом «temporal-difference»