Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным.
Однако наиболее интересные применения (скажем, летающие вертолеты ) RL и MDP связаны с непрерывным пространством состояний и пространствами действия. Я хотел бы выйти за рамки основных введений и сосредоточиться на этих случаях, но я не уверен, как туда добраться.
Какие области мне нужно знать или изучать, чтобы глубже понять эти случаи?