2
Когда методы Монте-Карло предпочтительнее, чем временные?
В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло и временную разность (DP). У меня проблема в том, что …