В чем разница между обучением вне политики и вне политики?


79

Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом:

«Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «.

Я хотел бы попросить вашего разъяснения по этому поводу, потому что они, кажется, не имеют никакого значения для меня. Оба определения кажутся идентичными. На самом деле я понял, что это моделирование и обучение на основе моделей, и я не знаю, имеют ли они какое-либо отношение к рассматриваемым.

Как это возможно, что оптимальная политика изучается независимо от действий агента? Не изучена ли политика, когда агент выполняет действия?


1
Я добавил комментарий к stackoverflow.com/questions/6848828/… , часть TL; NR также может помочь с пониманием.
Zyxue

Вот хорошее объяснение nb4799.neu.edu/wordpress/?p=1850
Иван Куш

Я также хотел бы добавить, что есть вариант SARSA, не связанный с политикой. В этом документе ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) будет рассмотрен вопрос о включении и выключении политики во введении, а затем объяснена ожидаемая сарса. Также ищите ожидаемые политические градиенты (EPG), чтобы найти более общую теорию, которая объединяет два типа.
Джош Альберт

Ответы:


95

Прежде всего, нет причины, по которой агент должен совершать жадные действия ; Агенты могут исследовать или они могут следовать опциям . Это не то, что отделяет политику вне обучения.

Причина, по которой Q-learning не является политикой, заключается в том, что оно обновляет свои Q-значения, используя Q-значение следующего состояния и жадного действия . Другими словами, он оценивает доход (общее дисконтированное будущее вознаграждение) для пар «государство-действие», предполагая, что соблюдалась жадная политика, несмотря на то, что она не следует жадной политике.s a

Причина , по которой Sarsa на политике , является то , что она обновляет Q-значения с использованием Q-значения следующего состояния и в текущей политике в действие . Он оценивает доходность для пар состояние-действие, предполагая, что текущая политика продолжает соблюдаться.sa

Различие исчезает, если текущая политика является жадной политикой. Однако такой агент не был бы хорош, поскольку он никогда не исследует.

Вы смотрели на книгу, доступную бесплатно онлайн? Ричард С. Саттон и Эндрю Дж. Барто. Усиление обучения: введение. Второе издание, MIT Press, Кембридж, Массачусетс, 2018.


8
приятное объяснение! Ваш пример Q-обучения лучше сформулирован, чем в книге Саттона, в которой говорится: « изученная функция действия-значения Q непосредственно аппроксимирует Q *, оптимальную функцию действия-значения, независимую от применяемой политики. Это значительно упрощает анализ алгоритма и включенные ранние доказательства сходимости. Политика по-прежнему оказывает влияние в том
смысле,

3
В общем, я не нахожу Саттона и Барто очень читабельными. Я считаю, что объяснения, которые они предлагают, не очень понятны. Я не уверен, почему их книгу рекомендуют повсюду
SN

@SN Для многих студентов, изучающих укрепление, Саттон и Барто - первая книга, которую они читают.
Нил Дж

3
@JakubArnold - оригинальная книга Саттона и Барто, написанная в 1998 году, которая не охватывает глубокое обучение с подкреплением. Во 2-м издании упоминаются только такие вещи, как AlphaGo, но в центре внимания книги более классические подходы. Если вы хотите больше ресурсов RL, взгляните на этот список . Я предлагаю видео Дэвида Сильвера и книгу Путермана, так как они более доступны. Для более теоретического материала я рекомендую книги Берцекаса. Посмотрите на веб-сайте Spinning Up алгоритмы DRL и ссылки на оригинальные статьи.
Дуглас Де Риццо Менегетти

1
@AlbertChen "Так что в этом случае, это зависит от исследования или нет": Нет, потому что оба алгоритма исследуют. Разница в том, как Q обновляется.
Нил Дж

13

Методы на основе политики оценивают ценность политики, используя ее для контроля.

В внеполитических методах политика, используемая для генерации поведения, называемая политикой поведения , может быть не связана с политикой, которая оценивается и улучшается, называемой политикой оценки .

Преимущество этого разделения состоит в том, что политика оценки может быть детерминированной (например, жадной), в то время как политика поведения может продолжать выборку всех возможных действий.

Для получения дополнительной информации см. Разделы 5.4 и 5.6 книги « Обучение усилению: Введение » Барто и Саттона, первое издание.


7

Разница между методами «вне политики» и «по политике» заключается в том, что при первом использовании вам не нужно следовать какой-либо конкретной политике, ваш агент может вести себя даже случайным образом, и, несмотря на это, методы вне политики все равно могут находить оптимальную политику. С другой стороны, методы политики зависят от используемой политики. В случае Q-Learning, который вне политики, он найдет оптимальную политику, независимую от политики, используемой во время исследования, однако это верно только в том случае, если вы посещаете различные состояния достаточно времени. Вы можете найти в оригинальной статье Уоткинса фактическое доказательство, которое показывает это очень хорошее свойство Q-Learning. Однако существует компромисс, и это вне политики, методы, как правило, медленнее, чем внутриполитические методы. Здесь ссылка с другим интересным резюме свойств обоих типов методов


1
Внеполитические методы не только медленнее, но и могут быть нестабильными в сочетании с начальной загрузкой (то есть, как Q-learning строит оценки друг от друга) и аппроксиматорами функций (например, нейронные сети).
Нил Слэйтер

7

Прежде всего, что на самом деле означает политика (обозначаемая )? Политика определяет действие , которое выполняется в состоянии (или, точнее, - это вероятность того, что действие выполняется в состоянии ).π
asπas

Во-вторых, какие у нас виды обучения?
1. Оценить функцию : предсказать сумму будущих дисконтированных вознаграждений, где - это действие, а - это состояние. 2. Найдите (на самом деле, ), которая приносит максимальное вознаграждение.Q(s,a)as
ππ(a|s)

Вернуться к исходному вопросу. Обучение вне политики и вне политики связано только с первой задачей: оценка .Q(s,a)

Разница заключается в следующем:
В на политике обучения на функция познается от действий, мы взяли , используя нашу текущую политику . При обучении вне политики функция изучается из различных действий (например, случайных действий). Нам даже не нужна политика вообще!Q(s,a)π
Q(s,a)

Это функция обновления для алгоритма SARSA по политике : где - это действие, которое было предпринято в соответствии с политикой .Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

Сравните это с функцией обновления для алгоритма Q-обучения вне политики : , где - все действия, которые были проверены в состоянии .Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

Из книги Саттона: «Подход на основе политики в предыдущем разделе на самом деле является компромиссом: он изучает значения действий не для оптимальной политики, а для почти оптимальной политики, которая все еще исследуется. Более простой подход заключается в использовании двух политик. тот, о котором узнают, и который становится оптимальной политикой, и тот, который является более исследовательским и используется для генерации поведения. Изучаемая политика называется целевой политикой, а политика, используемая для генерации поведения, называется политикой поведения. В этом случае мы говорим, что обучение на основе данных «o↵» является целевой политикой, а весь процесс называется обучением o policy-policy ».


если вы следуете этому описанию, непросто сказать, почему Q-learning не по правилам
Альберт Чен,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.