Что такое функция Q и что такое функция V в обучении подкреплению?

30

Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибся $V$ $Q$ $V$

Определения

Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с $(S, A, P, R, \gamma)$

$S$ - это набор состояний (обычно конечный)
$A$ - это набор действий (обычно конечный)
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ - вероятность перехода из состояния $s$ в состояние $s'$ с действием $a$ .
$R(s, s', a) \in \mathbb{R}$ - это немедленная награда после перехода из состояния $s$ в состояние $s'$ действием $a$ . (Мне кажется, что обычно это только $s'$ ).
$\gamma \in [0, 1]$ называется коэффициентом дисконтирования и определяет, сосредоточен ли кто-то на немедленном вознаграждении ( $\gamma = 0$ ), общем вознаграждении ( $\gamma = 1$ ) или некотором компромиссе.

Политика $\pi$ , в соответствии с подкреплением: Введение Саттон и Барто функция $\pi: S \rightarrow A$ (это может быть вероятностным).

Согласно слайдам Марио Мартинса , функция $V$ имеет вид

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$ и функция Q имеет вид

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

Мои мысли

Функция $V$ устанавливает ожидаемое общее значение (а не вознаграждение!) Состояния $s$ соответствии с политикой $\pi$ .

Функция $Q$ устанавливает значение состояния $s$ и действия $a$ соответствии с политикой $\pi$ .

Это означает, что

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

Правильно? Так почему же у нас вообще есть функция значения? (Думаю, я что-то перепутал)

machine-learning reinforcement-learning

— Мартин Тома
источник

15

Q-значения являются отличным способом сделать действия явными, чтобы вы могли решать проблемы, когда функция перехода недоступна (без модели). Однако, когда ваше пространство действия велико, вещи не так хороши, а Q-значения не так удобны. Подумайте об огромном количестве действий или даже непрерывных пространствах действия.

С точки зрения выборки размерность выше, чем поэтому может быть сложнее получить достаточно выборок по сравнению с . Если у вас есть доступ к функции перехода, иногда это хорошо. $Q(s, a)$ $V(s)$ $(s, a)$ $(s)$ $V$

Есть и другие виды использования, где оба комбинируются. Например, функция преимущества, где . Если вы заинтересованы, вы можете найти недавний пример, используя функции преимущества здесь: $A(s, a) = Q(s, a) - V(s)$

Сетевые архитектуры дуэли для глубокого обучения

Зию Ванг, Том Шауль, Маттео Хессель, Хадо ван Хасселт, Марк Ланкто и Нандо де Фрейтас.

— Хуан Лени
источник

19

$V^\pi(s)$ - функция значения состояния MDP (процесс принятия решения Маркова). Это ожидаемая доходность , начиная с государства следующей политики . $s$ $\pi$

В выражении

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ - это общее вознаграждение от временного шага , в отличие от который является немедленным возвратом. Здесь вы берете ожидание ВСЕХ действий в соответствии с политикой . $t$ $R_t$ $\pi$

$Q^\pi(s, a)$ - функция значения действия. Это ожидаемое возвращение, начиная с состояния , следующего за политикой и выполняющего действие . Это сосредоточено на конкретном действии в определенном государстве. $s$ $\pi$ $a$

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

Соотношение между и (значение нахождения в этом состоянии) $Q^\pi$ $V^\pi$

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

Вы суммируете каждое значение действия, умноженное на вероятность совершить это действие (политика ). $\pi(a|s)$

Если вы думаете о примере мира сетки, вы умножаете вероятность (вверх / вниз / вправо / влево) на значение состояния на один шаг вперед (вверх / вниз / вправо / влево).

— Аарон
источник

5

Это самый краткий ответ.

— Бретт

У меня есть источник, который утверждает, что . Как вы соотносите это уравнение с тем, которое вы указываете в своем ответе, ? В вашем уравнении вы определяете в виде взвешенной суммы значенийЭто отличается от определения у меня есть, который определяет как самый высокий .

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$

V

$V$

Q

$Q$

— nbro

@nbro Я думаю, это зависит от того, какую политику вы придерживаетесь. В чистой жадной политике вы правы. Но если бы это была более исследовательская политика, которая была построена для стохастического решения действия, то вышеприведенное было бы правильным

— deltaskelta

7

Вы правильно функция дает вам значение состояния, а - значение действия в состоянии (следуя заданной политике ). Я нашел наиболее ясное объяснение Q-обучения и его работы в книге Тома Митчелла «Машинное обучение» (1997), гл. 13, который можно загрузить. определяется как сумма бесконечного ряда, но здесь это не важно. Важно то, что функция определяется как $V$ $Q$ $\pi$ $V$ $Q$

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$ где V * - лучшее значение состояния, если вы можете следовать оптимальной политике, которую вы используете не знаю Однако он имеет хорошую характеристику в терминах Вычисление выполняется путем замены в первом уравнении, чтобы получить

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$

Q

$Q$

V^{*}

$V^*$

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

Поначалу это может показаться странной рекурсией, поскольку она выражает значение Q действия в текущем состоянии в терминах наилучшего значения Q состояния- преемника , но имеет смысл, когда вы смотрите на то, как его использует процесс резервного копирования: Исследование процесс останавливается, когда он достигает целевого состояния и собирает вознаграждение, которое становится значением Q этого заключительного перехода. Теперь в последующем обучающем эпизоде, когда процесс исследования достигает этого состояния предшественника, процесс резервного копирования использует указанное выше равенство для обновления текущего значения Q состояния предшественника. В следующий раз егопосещается предшественник, значение Q состояния которого обновляется, и так далее в обратном направлении (книга Митчелла описывает более эффективный способ сделать это, сохранив все вычисления и воспроизведя их позже). При условии, что каждое состояние посещается бесконечно часто, этот процесс в конечном итоге вычисляет оптимальный Q

Иногда вы увидите скорость обучения применяемую для контроля того, сколько Q действительно обновляется: Теперь обратите внимание , что обновление до величины Q имеет в зависимости от текущего значения Q. Книга Митчелла также объясняет, почему это так и почему вам нужна : ее для стохастических MDP. Без каждый раз, когда предпринималась попытка создания пары «состояние-действие», получалось бы другое вознаграждение, поэтому функция Q ^ отскакивала бы повсюду и не сходилась. существует, так как новые знания принимаются только частично. $\alpha$

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$

α

$\alpha$

α

$\alpha$

α

$\alpha$

α

$\alpha$ устанавливается так, чтобы ток (в основном случайные значения) Q был менее влиятельным. уменьшается по мере обучения, поэтому новые обновления оказывают все меньшее и меньшее влияние, и теперь Q обучение сходится

α

$\alpha$

— SN
источник

0

Вот более подробное объяснение связи между значением состояния и значением действия в ответе Аарона. Давайте сначала взглянем на определения функции-значения и функции-значения в разделе политики : где - возврат в момент времени . Отношение между этими двумя функциями значения может быть получено как $\pi$

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

t

$t$

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$ Вышеприведенное уравнение важно. Он описывает отношения между двумя фундаментальными ценностными функциями в обучении с подкреплением. Это действительно для любой политики. Более того, если у нас есть детерминированная политика, то . Надеюсь, это полезно для вас. (чтобы узнать больше об уравнении оптимальности Беллмана https: //stats.stackexchange.

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ )

— Цзе Ши
источник

0

Функция значения - это абстрактная формулировка полезности. И Q-функция используется для алгоритма Q-обучения.

— Эммануил
источник

Для контекста этого вопроса и различны.

V

$V$

Q

$Q$

— Сионг Тай Го