В чем разница между обучением вне политики и вне политики?

79

Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом:

«Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «.

Я хотел бы попросить вашего разъяснения по этому поводу, потому что они, кажется, не имеют никакого значения для меня. Оба определения кажутся идентичными. На самом деле я понял, что это моделирование и обучение на основе моделей, и я не знаю, имеют ли они какое-либо отношение к рассматриваемым.

Как это возможно, что оптимальная политика изучается независимо от действий агента? Не изучена ли политика, когда агент выполняет действия?

machine-learning reinforcement-learning artificial-intelligence

— ОЦП
источник

1

Я добавил комментарий к stackoverflow.com/questions/6848828/… , часть TL; NR также может помочь с пониманием.

— Zyxue

Вот хорошее объяснение nb4799.neu.edu/wordpress/?p=1850

— Иван Куш

Я также хотел бы добавить, что есть вариант SARSA, не связанный с политикой. В этом документе ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) будет рассмотрен вопрос о включении и выключении политики во введении, а затем объяснена ожидаемая сарса. Также ищите ожидаемые политические градиенты (EPG), чтобы найти более общую теорию, которая объединяет два типа.

— Джош Альберт

95

Прежде всего, нет причины, по которой агент должен совершать жадные действия ; Агенты могут исследовать или они могут следовать опциям . Это не то, что отделяет политику вне обучения.

Причина, по которой Q-learning не является политикой, заключается в том, что оно обновляет свои Q-значения, используя Q-значение следующего состояния и жадного действия . Другими словами, он оценивает доход (общее дисконтированное будущее вознаграждение) для пар «государство-действие», предполагая, что соблюдалась жадная политика, несмотря на то, что она не следует жадной политике. $s'$ $a'$

Причина , по которой Sarsa на политике , является то , что она обновляет Q-значения с использованием Q-значения следующего состояния и в текущей политике в действие . Он оценивает доходность для пар состояние-действие, предполагая, что текущая политика продолжает соблюдаться. $s'$ $a''$

Различие исчезает, если текущая политика является жадной политикой. Однако такой агент не был бы хорош, поскольку он никогда не исследует.

Вы смотрели на книгу, доступную бесплатно онлайн? Ричард С. Саттон и Эндрю Дж. Барто. Усиление обучения: введение. Второе издание, MIT Press, Кембридж, Массачусетс, 2018.

— Нил Г
источник

8

приятное объяснение! Ваш пример Q-обучения лучше сформулирован, чем в книге Саттона, в которой говорится: « изученная функция действия-значения Q непосредственно аппроксимирует Q *, оптимальную функцию действия-значения, независимую от применяемой политики. Это значительно упрощает анализ алгоритма и включенные ранние доказательства сходимости. Политика по-прежнему оказывает влияние в том

— смысле,

3

В общем, я не нахожу Саттона и Барто очень читабельными. Я считаю, что объяснения, которые они предлагают, не очень понятны. Я не уверен, почему их книгу рекомендуют повсюду

— SN

@SN Для многих студентов, изучающих укрепление, Саттон и Барто - первая книга, которую они читают.

— Нил Дж

3

@JakubArnold - оригинальная книга Саттона и Барто, написанная в 1998 году, которая не охватывает глубокое обучение с подкреплением. Во 2-м издании упоминаются только такие вещи, как AlphaGo, но в центре внимания книги более классические подходы. Если вы хотите больше ресурсов RL, взгляните на этот список . Я предлагаю видео Дэвида Сильвера и книгу Путермана, так как они более доступны. Для более теоретического материала я рекомендую книги Берцекаса. Посмотрите на веб-сайте Spinning Up алгоритмы DRL и ссылки на оригинальные статьи.

— Дуглас Де Риццо Менегетти

1

@AlbertChen "Так что в этом случае, это зависит от исследования или нет": Нет, потому что оба алгоритма исследуют. Разница в том, как Q обновляется.

— Нил Дж

13

Методы на основе политики оценивают ценность политики, используя ее для контроля.

В внеполитических методах политика, используемая для генерации поведения, называемая политикой поведения , может быть не связана с политикой, которая оценивается и улучшается, называемой политикой оценки .

Преимущество этого разделения состоит в том, что политика оценки может быть детерминированной (например, жадной), в то время как политика поведения может продолжать выборку всех возможных действий.

Для получения дополнительной информации см. Разделы 5.4 и 5.6 книги « Обучение усилению: Введение » Барто и Саттона, первое издание.

— nbro
источник

7

Разница между методами «вне политики» и «по политике» заключается в том, что при первом использовании вам не нужно следовать какой-либо конкретной политике, ваш агент может вести себя даже случайным образом, и, несмотря на это, методы вне политики все равно могут находить оптимальную политику. С другой стороны, методы политики зависят от используемой политики. В случае Q-Learning, который вне политики, он найдет оптимальную политику, независимую от политики, используемой во время исследования, однако это верно только в том случае, если вы посещаете различные состояния достаточно времени. Вы можете найти в оригинальной статье Уоткинса фактическое доказательство, которое показывает это очень хорошее свойство Q-Learning. Однако существует компромисс, и это вне политики, методы, как правило, медленнее, чем внутриполитические методы. Здесь ссылка с другим интересным резюме свойств обоих типов методов

— Juli
источник

1

Внеполитические методы не только медленнее, но и могут быть нестабильными в сочетании с начальной загрузкой (то есть, как Q-learning строит оценки друг от друга) и аппроксиматорами функций (например, нейронные сети).

— Нил Слэйтер

7

Прежде всего, что на самом деле означает политика (обозначаемая )? Политика определяет действие , которое выполняется в состоянии (или, точнее, - это вероятность того, что действие выполняется в состоянии ). $\pi$
$a$ $s$ $\pi$ $a$ $s$

Во-вторых, какие у нас виды обучения?
1. Оценить функцию : предсказать сумму будущих дисконтированных вознаграждений, где - это действие, а - это состояние. 2. Найдите (на самом деле, ), которая приносит максимальное вознаграждение. $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

Вернуться к исходному вопросу. Обучение вне политики и вне политики связано только с первой задачей: оценка . $Q(s,a)$

Разница заключается в следующем:
В на политике обучения на функция познается от действий, мы взяли , используя нашу текущую политику . При обучении вне политики функция изучается из различных действий (например, случайных действий). Нам даже не нужна политика вообще! $Q(s,a)$ $\pi$
$Q(s,a)$

Это функция обновления для алгоритма SARSA по политике : где - это действие, которое было предпринято в соответствии с политикой . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

Сравните это с функцией обновления для алгоритма Q-обучения вне политики : , где - все действия, которые были проверены в состоянии . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Дмитрий Моттл
источник

1

Из книги Саттона: «Подход на основе политики в предыдущем разделе на самом деле является компромиссом: он изучает значения действий не для оптимальной политики, а для почти оптимальной политики, которая все еще исследуется. Более простой подход заключается в использовании двух политик. тот, о котором узнают, и который становится оптимальной политикой, и тот, который является более исследовательским и используется для генерации поведения. Изучаемая политика называется целевой политикой, а политика, используемая для генерации поведения, называется политикой поведения. В этом случае мы говорим, что обучение на основе данных «o↵» является целевой политикой, а весь процесс называется обучением o policy-policy ».

— Оливер Гольдштейн
источник

если вы следуете этому описанию, непросто сказать, почему Q-learning не по правилам

— Альберт Чен,