2
Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?
Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let …