Рассмотрим следующее дифференциальное уравнение где - это состояние, а - управляющая переменная. Решение дается где - заданное начальное состояние.xux(t)=x0+∫ t 0 f(x(s),u(s))ds. х0:=х(0)
Теперь рассмотрим следующую программу где \ rho> 0 обозначает предпочтение времени, V (\ cdot) - значение, а F (\ cdot) целевая функция. Классическим экономическим применением является модель оптимального роста Рамси-Касс-Купманса. Уравнение Гамильтона-Якоби-Беллмана определяется как \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ в [0, \ infty). \ конец {} Align ρ>0V(⋅)F(⋅) ρ V ( x ) = max u [ F ( x , u ) + V ′ ( x ) f ( x , u ) ] ,
Скажем , я решал HJB для . Оптимальное управление задается как
Вики статья говорит
... но при решении по всему пространству состояний уравнение HJB является необходимым и достаточным условием для оптимума.
В Bertsekas (2005) « Динамическое программирование и оптимальное управление» , том 1, 3-е изд., В предложении 3.2.1 он утверждает, что решение для является оптимальной функцией стоимости, а соответствующий оптимален. Однако он явно объявляет это как теорему достаточности.
На самом деле, я просто хочу убедиться, что, если я решил HJB и восстановил связанные состояния и управлял траекториями, мне не нужно беспокоиться о каких-либо дополнительных условиях оптимальности.
Решение
Я пытаюсь
Я думаю, что я смог вывести необходимые условия из принципа максимума с помощью самого уравнения HJB.
Определите гамильтониан
тогда мы имеем
что
Определите произвольную функцию с . Теперь исправьте
где является параметром. Вставьте термин в максимизированный гамильтониан, который дает
При мы имеем оптимальное решение. Таким образом, чтобы получить условие первого порядка
Теперь определите присоединенную переменную с помощью
Дифференцировать по времени
и обратите внимание, что
Вставьте все в фокус, который дает
Вот и все. Таким образом, решение HJB действительно необходимо и достаточно (здесь опущено) для оптимальности. Кто-то должен добавить это в вики. Может сэкономить время для людей, думающих о таких проблемах (думаю, не так уж много).
Однако условие трансверсальности отсутствует.
II попытка
Определить функционал выплаты
Обратите внимание, что по определению . Добавьте нейтральный термин к функции выплаты
Интеграция по частям правого слагаемого и правой части дает
Повторно замените этот термин
Определить
который дает
FOC для максимального значенияJ ε = ∫ ∞ 0 e - ρ t [ H x q + H u p + q
Поскольку и не ограничены, мы должны иметь