Знакомство с непрерывными пространствами состояний / действий, MDP и Reinforcement Learning


8

Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным.

Однако наиболее интересные применения (скажем, летающие вертолеты ) RL и MDP связаны с непрерывным пространством состояний и пространствами действия. Я хотел бы выйти за рамки основных введений и сосредоточиться на этих случаях, но я не уверен, как туда добраться.

Какие области мне нужно знать или изучать, чтобы глубже понять эти случаи?

Ответы:


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.