Решение уравнения Гамильтона-Якоби-Беллмана; необходимо и достаточно для оптимальности?


13

Рассмотрим следующее дифференциальное уравнение где - это состояние, а - управляющая переменная. Решение дается где - заданное начальное состояние.xux(t)=x0+ t 0 f(x(s),u(s))ds. х0:=х(0)

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

Теперь рассмотрим следующую программу где \ rho> 0 обозначает предпочтение времени, V (\ cdot) - значение, а F (\ cdot) целевая функция. Классическим экономическим применением является модель оптимального роста Рамси-Касс-Купманса. Уравнение Гамильтона-Якоби-Беллмана определяется как \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ в [0, \ infty). \ конец {} Align ρ>0V()F() ρ V ( x ) = max u [ F ( x , u ) + V ( x ) f ( x , u ) ] ,

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Скажем , я решал HJB для V . Оптимальное управление задается как

u=argmaxu[F(x,u)+V(x)f(x,u)].
Я получу оптимальные траектории для состояния и управления {(x(t),u(t)):t[0,)} .

Вики статья говорит

... но при решении по всему пространству состояний уравнение HJB является необходимым и достаточным условием для оптимума.

В Bertsekas (2005) « Динамическое программирование и оптимальное управление» , том 1, 3-е изд., В предложении 3.2.1 он утверждает, что решение для V является оптимальной функцией стоимости, а соответствующий u оптимален. Однако он явно объявляет это как теорему достаточности.

На самом деле, я просто хочу убедиться, что, если я решил HJB и восстановил связанные состояния и управлял траекториями, мне не нужно беспокоиться о каких-либо дополнительных условиях оптимальности.

Решение

Я пытаюсь

Я думаю, что я смог вывести необходимые условия из принципа максимума с помощью самого уравнения HJB.

Определите гамильтониан

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

тогда мы имеем

ρV(x)=maxuH(x,u,V(x))

что

ρV(x)=H(x,u,V(x)).

Определите произвольную функцию с . Теперь исправьте q:[0,)Rq(0)=limtq(t)=0

x=x+εq

где является параметром. Вставьте термин в максимизированный гамильтониан, который дает εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

При мы имеем оптимальное решение. Таким образом, чтобы получить условие первого порядка ε=0ε

ρVq=Hxq+HVVq.

Теперь определите присоединенную переменную с помощью

λ=V(x).

Дифференцировать по времени

λ˙=Vx˙.

и обратите внимание, что

HV=f(x,u)=x˙.

Вставьте все в фокус, который дает

ρλ=Hx+λ˙.

Вот и все. Таким образом, решение HJB действительно необходимо и достаточно (здесь опущено) для оптимальности. Кто-то должен добавить это в вики. Может сэкономить время для людей, думающих о таких проблемах (думаю, не так уж много).

Однако условие трансверсальности отсутствует.

limteρtλ(t)=0

II попытка

Определить функционал выплаты

J(u):=0eρtF(x,u)dt

Обратите внимание, что по определению . Добавьте нейтральный термин к функции выплаты

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

Интеграция по частям правого слагаемого и правой части дает

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

Повторно замените этот термин

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

Определить

x=x+εqu=u+εp

который дает

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC для максимального значенияJ ε = 0 e - ρ t [ H x q + H u p + qJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

Поскольку и не ограничены, мы должны иметь qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

Вы определили необходимые и достаточные условия еще?
Джемзи

В каком экономическом контексте это происходит?
Стэн Шунпайк,


1
Я думаю, что этот поток лучше подходит для math.stackexchange.com, так как он на самом деле не связан с econ. Мод может передать его.
невежественный

Я не уверен, что здесь спрашивают: если по Берцекасу достаточно решения HJB , то вам не нужно «беспокоиться о дополнительных условиях оптимальности». «Достаточное только» против «необходимого и достаточного» возникло бы, если бы HJB не был решен - в этом случае можно было бы сказать «это не означает, что решения не существует». Кстати, ваши Попытки I и II являются здесь ценным контентом - первый показывает связь между HJB и Оптимальным управлением, а второй показывает, как можно получить оптимальные значения FOC управления.
Алекос Пападопулос

Ответы:


1

(Возможно, это следует рассматривать как комментарий.)

Если вы решили уравнение HJB, достаточно получить оптимальное решение. Таким образом, вам не «нужно беспокоиться о каких-либо других условиях оптимальности», которые, как мне кажется, отвечают на ваш вопрос.

Похоже, что вы обеспокоены «необходимым» компонентом теоремы. Необходимая сторона утверждения состоит в следующем: если существует оптимальное решение, должно существовать решение уравнения HJB.

Я не работал с этой конкретной проблемой, но в целом ответ таков: мы не ожидаем, что у нас будет дифференцируемая функция V. Поэтому у нас нет решения уравнения, как оно сформулировано. Вместо этого нам нужно посмотреть на обобщенные производные и преобразовать уравнение HJB в неравенство. В этом случае вы можете получить «раствор вязкости». Если мы расширим использование обобщенных производных, то можно будет доказать, что такое решение всегда существует. Взглянув на ваши доказательства, они не помогут в условиях необходимости, поскольку вы предполагаете дифференцируемость.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.