Знакомство с непрерывными пространствами состояний / действий, MDP и Reinforcement Learning

Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным.

Однако наиболее интересные применения (скажем, летающие вертолеты ) RL и MDP связаны с непрерывным пространством состояний и пространствами действия. Я хотел бы выйти за рамки основных введений и сосредоточиться на этих случаях, но я не уверен, как туда добраться.

Какие области мне нужно знать или изучать, чтобы глубже понять эти случаи?

research reinforcement-learning control-problem

— CarrKnight
источник

В моем предложении для тезиса есть небольшой обзор непрерывных состояний, действий и времени в обучении с подкреплением .

Что касается книг, Reinforcement Learning: State-of-the-Art, кажется, довольно современен из отрывков, которые я прочитал.

— rcpinto
источник