Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?

10

Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения $V^*$ и оптимальной политике . $\pi^*$

Напомним, итерация политики:

$\text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := V^{\pi} \text{ \\for the current policy, solve bellman's eqn's and set that to the current V}\\ \quad Let \ \pi(s) := argmax_{a \in A} \sum_{s'}P_{sa}(s') V(s')\\ \}$

Почему жадный алгоритм приводит к оптимальной политике и функции оптимального значения? (Я знаю, что жадные алгоритмы не всегда гарантируют это или могут застрять в локальных оптимах, поэтому я просто хотел увидеть доказательство его оптимальности алгоритма).

Кроме того, мне кажется, что итерация политики является чем-то аналогичным кластеризации или градиентному спуску. Для кластеризации, потому что с текущей настройкой параметров мы оптимизируем. Подобно градиентному спуску, потому что он просто выбирает какое-то значение, которое, кажется, увеличивает некоторую функцию. Эти два метода не всегда сходятся к оптимальным максимумам, и я пытался понять, чем этот алгоритм отличается от предыдущих, которые я упоминал.

Это мои мысли до сих пор:

Скажем, мы начинаем с некоторой политики , затем после первого шага для этой фиксированной политики: $\pi_1$

$V^{\pi_1}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s')$

$V^{(1)} := V^{\pi_1}(s)$

Где V ^ {(1)} - функция значения для первой итерации. Затем после второго шага мы выбираем новую политику чтобы увеличить значение . Теперь, с новой политикой , если мы сделаем второй шаг алгоритма, справедливо следующее неравенство: $\pi_2$ $V^{\pi_1}(s)$ $\pi_2$

$R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s') \leq R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_1}(s')$

Поскольку мы выбираем на втором шаге, чтобы увеличить функцию значения на предыдущем шаге (т. Е. Улучшить . Пока ясно, что выбор может только увеличить V ^ {(1)}, потому что именно так мы выбираем . Однако моя путаница заключается в повторном шаге, потому что как только мы повторяем и возвращаемся к шагу 1, мы фактически полностью меняем вещи, потому что мы пересчитываем для новой политики . Который дает: $\pi_2$ $V^{(1)}$ $\pi_2$ $\pi_2$ $V^{2}$ $\pi_2$

$V^{\pi_2}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_2}(s')$

но это не так:

$V^{\pi_1}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_1}(s')$

Это кажется проблемой, потому что был выбран для улучшения , а не этого нового . В основном проблема в том, что гарантирует улучшение , выполнив вместо из , когда функция значения . Но на шаге повторения мы меняем на , но я не вижу, как это гарантирует, что функция значения монотонно улучшается при каждом повторении, потому что была рассчитана для улучшения функции значения, когда функции значений остаются в $\pi_2$ $V^{(1)}$ $V^{\pi_2}$ $pi_2$ $R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s')$ $\pi_2$ $pi_1$ $V^{\pi_1}$ $V^{\pi_1}$ $V^{\pi_2}$ $\pi_2$ $V^{\pi_1}$ , но шаг 1 меняет на (что плохо, потому что я только улучшил предыдущую функцию значений, которую мы имели). $V^{\pi_1}$ $V^{\pi_2}$ $\pi_2$

reinforcement-learning policy-iteration

— Пиноккио
источник

1

Просто примечание: жадность не означает, что алгоритм не найдет оптимального решения в целом.

— Regenschein

1

Итерация значения - это алгоритм динамического программирования, а не жадный алгоритм. Они имеют некоторые общие черты, но есть различия. Взгляните на stackoverflow.com/questions/13713572/… .

— francoisr

@francoisr никто никогда не говорил мне этого. Может быть, поэтому это было так (излишне) загадочно для меня. Я хорошо знаю DP. Спасибо хоть! :)

— Буратино

4

Я думаю, что часть, которую вы упускаете, это то, что гарантируется по той же причине, которую мы можем заказать . По сути, это определение того, что одна политика лучше другой - что ее ценностная функция больше или равна во всех штатах. Вы гарантировали это, выбирая максимизирующие действия - никакое значение состояния не может быть хуже, чем было раньше, и если только один выбор действия изменился, чтобы выбрать лучшее максимизирующее действие, то вы уже знаете (но, возможно, не рассчитали), что для этого состояния будет выше, чем было для . $V^{\pi_2} \ge V^{\pi_1}$ $\pi_2 \ge \pi_1$ $V^{\pi_2}(s)$ $V^{\pi_1}(s)$

Когда мы решаем максимизировать результаты для генерации , мы не знаем, какими будут новые для любого состояния, но мы знаем, что . $\pi_2$ $V^{\pi_2}(s)$ $\forall s: V^{\pi_2}(s) \ge V^{\pi_1}(s)$

Таким образом, возвращаясь через цикл и вычисляя для новой политики, гарантированно будет иметь те же или более высокие значения, чем прежде, и когда дело доходит до обновления политики снова, , $V^{\pi_2}$ $\pi_3 \ge \pi_2 \ge \pi_1$

— Нил Слэйтер
источник

4

Сначала давайте посмотрим, почему алгоритм итерации политики работает. У него два шага.

Этап оценки политики:

- общая векторная форма системы линейных уравнений. $v_n = r_{d_n} + \gamma P_{d_n}v_n$

Здесь члены являются непосредственными наградами и соответствующими строками матрицы перехода. $r_{d_n}, P_{d_n}$

Эти условия зависят от политики $\Pi_n$

Решая приведенную выше систему уравнений, можно найти значения $v_n$

Этап улучшения политики:

Предположим, что мы смогли найти новую политику такую, что $\Pi_{n+1}$

\begin{aligned} r_{d_{n} + 1} + γ P_{d_{n} + 1} v_{n} & \geq r_{d_{n}} + γ P_{d_{n}} v_{n} \\ ⟹ r_{d_{n} + 1} & \geq [I - γ P_{d_{n} + 1}] v_{n} say this is eqn. 1 \end{aligned}

$\begin{align} r_{d_n+1} + \gamma P_{d_n+1}v_n & \ge r_{d_n} + \gamma P_{d_n}v_n \\ \implies r_{d_n+1} & \ge [I - \gamma P_{d_n+1}]v_n \quad \text{say this is eqn. 1}\\ \end{align}$

$\Pi_{n+1}$ $v_{n+1} = r_{d_{n+1}} + \gamma P_{d_{n+1}}v_{n+1}$

$v_{n+1} \ge v_n$

$\Pi_{n+1}$ $\Pi_{n}$

Доказательство:

Из уравнения 2 имеем:

$[I - \gamma P_{d_{n+1}}]v_{n+1} = r_{d_n+1}$

$1 \&2$

$v_{n+1} \ge v_{n}$

По существу, значения монотонно увеличиваются с каждой итерацией.

Это важно для понимания того, почему интеграция политик не будет зависать на локальном максимуме.

Политика - это не что иное, как пространство действий государства.

$\Pi_{n+1}$ $\Pi_{n}$ $\quad r_{d_n+1} + \gamma P_{d_n+1}v_n \ge r_{d_n} + \gamma P_{d_n}v_n$

$\Pi^*$ $\Pi^\#$

$v_* \ge v_\#$

Предположим, что алгоритм застрял на локальном оптимуме.

$\Pi^\#$ $\Pi^*$ $\Pi^\#$ $v_{*}$ $v_{\#}$

или, другими словами,

$[I-\gamma P_{d_*}]v_* \ge [I-\gamma P_{d_*}]v_{\#}$

$\implies r_{d_*} \ge [I-\gamma P_{d_*}]v_{\#}$

$\implies r_{d_*} + \gamma P_{d_*}v_{\#} \ge v_{\#}$

$\implies r_{d_*} + \gamma P_{d_*}v_{\#} \ge r_{d_\#} + \gamma P_{d_\#}v_\#$

Следовательно, итерация Политики не останавливается на локальном оптимуме

— honeybadger
источник