Какова связь между теорией игр и обучением подкреплению?


11

Я заинтересован в (глубоком) изучении подкрепления (RL) . Прежде чем погрузиться в это поле, я должен пройти курс теории игр (GT) ?

Как связаны GT и RL ?


2
Они примерно так же тесно связаны, как молотки и взбитые сливки. Вероятно, вы можете найти проблему, где вы можете использовать оба, но это не распространено.
Дон Реба

4
@DonReba Нет, по словам двух известных исследователей в области обучения подкреплению: udacity.com/course/… Я думаю, что теория игр говорит вам, что такое оптимальная политика, а RL говорит вам, как агенты могут выучить оптимальную или хорошую политику.
Kiuhnm

3
@DonReba, возможно, с точки зрения обычного содержания, которое преподается в них. Однако цели этих двух полей не так уж различны. Усиленное обучение можно рассматривать как игру с несовершенной информацией, часто для одного игрока. Или как игра для двух игроков, в которой другой игрок, природа, следует ряду правил, которые вы хотите открыть.
предположения

1
Это было познавательно. :)
Дон Реба

Ответы:


12

В Обучении с подкреплением (RL) принято представлять лежащий в основе Марковский процесс принятия решений (MDP). Тогда цель RL - изучить правильную политику для MDP, которая часто указывается только частично. У MDP могут быть разные цели, такие как общее, среднее или дисконтированное вознаграждение, где дисконтированное вознаграждение является наиболее распространенным предположением для RL. Существуют хорошо изученные расширения MDP для настроек для двух игроков (т. Е. Для игры); см., например,

Филар, Ежи и Коос Вризе. Конкурентные марковские решения процессов . Springer Science & Business Media, 2012.

Существует базовая теория, разделяемая MDP и их расширениями для игр с двумя игроками (с нулевой суммой), включая, например, теорему Банаха о фиксированной точке, итерацию значения, оптимальность Беллмана, итерацию политики / улучшение стратегии и т. Д. Однако, хотя есть эти тесные связи между MDP (и, следовательно, RL) и этими конкретными типами игр:

  • вы можете узнать о RL (и MDP) напрямую, без GT в качестве предварительного условия;
  • в любом случае, вы не узнаете об этом на большинстве курсов GT (которые обычно фокусируются, например, на стратегической, экстенсивной и повторяющихся играх, но не на бесконечных играх на основе состояния, которые обобщают MDP).

6

Теория игр довольно тесно связана с изучением многоагентного подкрепления (MARL).

Взгляните на стохастические игры или прочитайте статью «Анализ стохастической теории игр для многоагентного обучения подкреплению» .

Я бы не рассматривал GT как обязательное условие для RL. Тем не менее, это хорошее расширение для случая с несколькими агентами.


0

Р.Л .: Один агент обучен решать марковскую задачу решения (MDPS). GT: Два агента обучены решать Игры. Мультиагентное обучение с подкреплением (MARL) может использоваться для решения стохастических игр.

Если вы заинтересованы в применении RL для глубокого обучения с одним агентом, вам не нужно идти на курсы GT. Для двух или более агентов вам может понадобиться знание теоретико-игровых приемов.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.