Вопросы с тегом «value-iteration»

4
В чем разница между итерацией значения и итерацией политики?
В обучении с подкреплением, в чем разница между итерации политики и значение итерации ? Насколько я понимаю, при итерации значений вы используете уравнение Беллмана для поиска оптимальной политики, тогда как при итерации политики вы случайным образом выбираете политику π и находите вознаграждение за эту политику. Я сомневаюсь, что если вы …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.