Почему базовый уровень зависит от состояния в какой-то момент времени непредвзято?

В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль: Обучение усилению моторных навыков с помощью градиентов политики, 2008».

При моторном примитивном обучении можно преодолеть проблему, потому что оптимизация параметров градиента политики направляет шаги обучения в цель.

цитата: «Если оценка градиента несмещена, а показатели обучения соответствуют сумме (a) = 0, процесс обучения гарантированно сойдет по крайней мере до локального минимума [...]. Поэтому нам нужно оценивать градиент политики только по сгенерированным данным. во время выполнения задачи. »(Страница 4 того же документа)

В домашней задаче для задачи 1 класса Berkeley RL вам предлагается показать, что градиент политики по-прежнему беспристрастен, если вычтенная базовая линия является функцией состояния на временном шаге t.

▽_{θ} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p (s_{t}, a_{t})} [b (s_{t})] = 0

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0$

Я пытаюсь понять, каким может быть первый шаг такого доказательства. Может ли кто-нибудь указать мне правильное направление? Моя первоначальная мысль состояла в том, чтобы каким-то образом использовать закон полного ожидания, чтобы сделать ожидание b (st) условным для T, но я не уверен. Заранее спасибо :)

_{ссылка на оригинальный png уравнения}

reinforcement-learning

— Лаура С
источник

Добро пожаловать в SE: AI! (Я позволил себе преобразовать уравнение в MathJax. Оригинал .png связан внизу.)

— DukeZhou

На самом деле у меня не так много времени, чтобы записать точные уравнения и отформатировать их (возможно, позже, если на них еще нет ответа) с помощью LaTeX, но вот подсказка. Вы хотите, чтобы сумма не зависела от политики, поэтому производная была бы равна 0. Поэтому вы как-то пытаетесь выразить вещи с помощью политики p (s, a). Ответ также можно найти в книге Саттона RL Intro в главе «Градиент политики».

— Хай Нгуен

Большое спасибо! Я воспользуюсь этой подсказкой, чтобы начать, а также поблагодарить вас за то, что вы рассказали мне о том, что находитесь в Саттоне Я читаю эту книгу, и она великолепна!

— Лора C

@LauraC, если вы найдете ответ раньше всех, пожалуйста, вернитесь и

— опубликуйте

Я добавил контекстную информацию для вопроса.

— Мануэль Родригес

Ответы:

Используя закон повторных ожиданий, получаем:

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = \nabla_\theta \sum_{t=1}^T \mathbb{E}_{s_t \sim p(s_t)} \left[ \mathbb{E}_{a_t \sim \pi_\theta(a_t | s_t)} \left[ b(s_t) \right]\right] =$

написано с интегралами и перемещая градиент внутри (линейность), вы получите

$= \sum_{t=1}^T \int_{s_t} p(s_t) \left(\int_{a_t} \nabla_\theta b(s_t) \pi_\theta(a_t | s_t) da_t \right)ds_t =$

$\nabla_\theta$ $b(s_t)$ $a_t$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta \left(\int_{a_t} \pi_\theta(a_t | s_t) da_t \right)ds_t=$

$\pi_\theta(a_t | s_t)$ $a_t$ $s_t$ $1$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta 1 ds_t =$

$\nabla_\theta1 = 0$

— Андрей Полманн
источник

Похоже, что домашняя работа должна была быть выполнена за два дня до написания этого ответа, но в случае, если она по-прежнему актуальна, соответствующие примечания к классу (которые были бы полезны, если бы содержались в вопросе вместе с домашней работой) здесь .

$\mathbb{E}_{\tau \sim p \theta(\tau)}$

$\sum_{t = 1}^{T} E_{\tau \sim p \theta(\tau)} [\nabla_\theta \log \pi_\theta(a_t|s_t)(b(s_t))] = 0$

$\pi_\theta(a_t|s_t)$

Это упражнение является подготовкой к следующему этапу домашней работы и основано только на обзоре CS189, курса Burkeley «Введение в машинное обучение», который не содержит Закон Полных Ожиданий в своих программах или заметках к занятиям.

Вся соответствующая информация находится в ссылке выше для заметок класса и требует только промежуточной алгебры.

— Дуглас Дасеко
источник