Я заинтересован в (глубоком) изучении подкрепления (RL) . Прежде чем погрузиться в это поле, я должен пройти курс теории игр (GT) ?
Как связаны GT и RL ?
Я заинтересован в (глубоком) изучении подкрепления (RL) . Прежде чем погрузиться в это поле, я должен пройти курс теории игр (GT) ?
Как связаны GT и RL ?
Ответы:
В Обучении с подкреплением (RL) принято представлять лежащий в основе Марковский процесс принятия решений (MDP). Тогда цель RL - изучить правильную политику для MDP, которая часто указывается только частично. У MDP могут быть разные цели, такие как общее, среднее или дисконтированное вознаграждение, где дисконтированное вознаграждение является наиболее распространенным предположением для RL. Существуют хорошо изученные расширения MDP для настроек для двух игроков (т. Е. Для игры); см., например,
Филар, Ежи и Коос Вризе. Конкурентные марковские решения процессов . Springer Science & Business Media, 2012.
Существует базовая теория, разделяемая MDP и их расширениями для игр с двумя игроками (с нулевой суммой), включая, например, теорему Банаха о фиксированной точке, итерацию значения, оптимальность Беллмана, итерацию политики / улучшение стратегии и т. Д. Однако, хотя есть эти тесные связи между MDP (и, следовательно, RL) и этими конкретными типами игр:
Теория игр довольно тесно связана с изучением многоагентного подкрепления (MARL).
Взгляните на стохастические игры или прочитайте статью «Анализ стохастической теории игр для многоагентного обучения подкреплению» .
Я бы не рассматривал GT как обязательное условие для RL. Тем не менее, это хорошее расширение для случая с несколькими агентами.
Р.Л .: Один агент обучен решать марковскую задачу решения (MDPS). GT: Два агента обучены решать Игры. Мультиагентное обучение с подкреплением (MARL) может использоваться для решения стохастических игр.
Если вы заинтересованы в применении RL для глубокого обучения с одним агентом, вам не нужно идти на курсы GT. Для двух или более агентов вам может понадобиться знание теоретико-игровых приемов.