Решение уравнения Гамильтона-Якоби-Беллмана; необходимо и достаточно для оптимальности?

Рассмотрим следующее дифференциальное уравнение где - это состояние, а - управляющая переменная. Решение дается где - заданное начальное состояние.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Теперь рассмотрим следующую программу где обозначает предпочтение времени, - значение, а целевая функция. Классическим экономическим применением является модель оптимального роста Рамси-Касс-Купманса. Уравнение Гамильтона-Якоби-Беллмана определяется как

\begin{aligned} V (x_{0}) := max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Скажем , я решал HJB для $V$ . Оптимальное управление задается как

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ Я получу оптимальные траектории для состояния и управления

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

Вики статья говорит

... но при решении по всему пространству состояний уравнение HJB является необходимым и достаточным условием для оптимума.

В Bertsekas (2005) « Динамическое программирование и оптимальное управление» , том 1, 3-е изд., В предложении 3.2.1 он утверждает, что решение для $V$ является оптимальной функцией стоимости, а соответствующий $u^*$ оптимален. Однако он явно объявляет это как теорему достаточности.

На самом деле, я просто хочу убедиться, что, если я решил HJB и восстановил связанные состояния и управлял траекториями, мне не нужно беспокоиться о каких-либо дополнительных условиях оптимальности.

Решение

Я пытаюсь

Я думаю, что я смог вывести необходимые условия из принципа максимума с помощью самого уравнения HJB.

Определите гамильтониан

\begin{aligned} H (x, u, V^{'} (x)) := F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

тогда мы имеем

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

что

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Определите произвольную функцию с . Теперь исправьте $q:[0,\infty)\to\mathbb{R}$ $q(0)=\lim_{t\to\infty} q(t)=0$

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

где является параметром. Вставьте термин в максимизированный гамильтониан, который дает $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

При мы имеем оптимальное решение. Таким образом, чтобы получить условие первого порядка $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Теперь определите присоединенную переменную с помощью

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Дифференцировать по времени

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

и обратите внимание, что

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Вставьте все в фокус, который дает

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

Вот и все. Таким образом, решение HJB действительно необходимо и достаточно (здесь опущено) для оптимальности. Кто-то должен добавить это в вики. Может сэкономить время для людей, думающих о таких проблемах (думаю, не так уж много).

Однако условие трансверсальности отсутствует.

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II попытка

Определить функционал выплаты

\begin{aligned} J (u) := \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Обратите внимание, что по определению . Добавьте нейтральный термин к функции выплаты

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Интеграция по частям правого слагаемого и правой части дает

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Повторно замените этот термин

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Определить

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

который дает

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC для максимального значения $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Поскольку и не ограничены, мы должны иметь $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— невежественный
источник

Вы определили необходимые и достаточные условия еще?

— Джемзи

В каком экономическом контексте это происходит?

— Стэн Шунпайк,

Например, модель Рамсея cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— невежественный

Я думаю, что этот поток лучше подходит для math.stackexchange.com, так как он на самом деле не связан с econ. Мод может передать его.

— невежественный

Я не уверен, что здесь спрашивают: если по Берцекасу достаточно решения HJB , то вам не нужно «беспокоиться о дополнительных условиях оптимальности». «Достаточное только» против «необходимого и достаточного» возникло бы, если бы HJB не был решен - в этом случае можно было бы сказать «это не означает, что решения не существует». Кстати, ваши Попытки I и II являются здесь ценным контентом - первый показывает связь между HJB и Оптимальным управлением, а второй показывает, как можно получить оптимальные значения FOC управления.

— Алекос Пападопулос

(Возможно, это следует рассматривать как комментарий.)

Если вы решили уравнение HJB, достаточно получить оптимальное решение. Таким образом, вам не «нужно беспокоиться о каких-либо других условиях оптимальности», которые, как мне кажется, отвечают на ваш вопрос.

Похоже, что вы обеспокоены «необходимым» компонентом теоремы. Необходимая сторона утверждения состоит в следующем: если существует оптимальное решение, должно существовать решение уравнения HJB.

Я не работал с этой конкретной проблемой, но в целом ответ таков: мы не ожидаем, что у нас будет дифференцируемая функция V. Поэтому у нас нет решения уравнения, как оно сформулировано. Вместо этого нам нужно посмотреть на обобщенные производные и преобразовать уравнение HJB в неравенство. В этом случае вы можете получить «раствор вязкости». Если мы расширим использование обобщенных производных, то можно будет доказать, что такое решение всегда существует. Взглянув на ваши доказательства, они не помогут в условиях необходимости, поскольку вы предполагаете дифференцируемость.

— Брайан Романчук
источник