3
Почему всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам?
Усиление обучения: введение. Второе издание, в процессе ., Ричард С. Саттон и Эндрю Дж. Барто (с) 2012, с. 67-68. Решение задачи обучения с подкреплением означает, грубо говоря, поиск политики, которая в конечном итоге приносит много пользы. Для конечных MDP мы можем точно определить оптимальную политику следующим образом. Функции значения определяют …