5
Что такое функция Q и что такое функция V в обучении подкреплению?
Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, …