В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль: Обучение усилению моторных навыков с помощью градиентов политики, 2008».
При моторном примитивном обучении можно преодолеть проблему, потому что оптимизация параметров градиента политики направляет шаги обучения в цель.
цитата: «Если оценка градиента несмещена, а показатели обучения соответствуют сумме (a) = 0, процесс обучения гарантированно сойдет по крайней мере до локального минимума [...]. Поэтому нам нужно оценивать градиент политики только по сгенерированным данным. во время выполнения задачи. »(Страница 4 того же документа)
В домашней задаче для задачи 1 класса Berkeley RL вам предлагается показать, что градиент политики по-прежнему беспристрастен, если вычтенная базовая линия является функцией состояния на временном шаге t.
Я пытаюсь понять, каким может быть первый шаг такого доказательства. Может ли кто-нибудь указать мне правильное направление? Моя первоначальная мысль состояла в том, чтобы каким-то образом использовать закон полного ожидания, чтобы сделать ожидание b (st) условным для T, но я не уверен. Заранее спасибо :)