Вопросы с тегом «policy-iteration»

2
Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?
Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.