Как упоминал Джед Браун, связь между градиентным спуском в нелинейной оптимизации и переходом во времени динамических систем переоткрывается с некоторой частотой (понятно, поскольку это очень удовлетворительная связь с математическим разумом, поскольку она связывает две, казалось бы, разные области). Однако это редко оказывается полезным соединением, особенно в контексте, который вы описываете.
В обратных задачах, люди заинтересованы в решении (некорректных) операторного уравнения с не в диапазоне . (Вашу задачу оптимального управления можно рассматривать как один ее экземпляр с и .) Несколько стратегий регуляризации (таких как Тихонов или Ландвебер) можно интерпретировать как единое псевдо-время шаг определенного класса. Идея состоит в том, чтобы затем использовать интерпретацию параметра регуляризации в качестве длины шага, чтобы получить некоторые (адаптивные, апостериорные) правила выбора для параметра - фундаментальную проблему в обратных задачах - и, возможно, сделать несколько шагов псевдо-времени для приблизиться к истинному нерегулярному решению (аналогичноy δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A−1yδ=y0численное продолжение ). Это иногда называется непрерывной регуляризацией и обычно обсуждается в контексте методов установки уровня; см., например, главу 6.1 Kaltenbacher, Scherzer, Neubauer: итерационные методы регуляризации для нелинейных некорректных задач (de Gruyter, 2008).
Второй контекст, в котором эта идея неоднократно возникает, - нелинейная оптимизация: если вы посмотрите на шаг градиентного спуска для ,
то вы можете интерпретировать это как вперед шаг Эйлера для динамической системы
Как отметил Джед Браун, это на первый взгляд дает только не очень удивительное наблюдение, что этот метод сходится, при условии, что шаги псевдо времени достаточно малы. Интересная часть возникает, когда вы смотрите на динамическую систему и спрашиваете себя, каковы свойства непрерывного решения так называемого градиентного потокаminxf(x)
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)имеет (или должен иметь), независимый от градиентного спуска, и от того, может ли это привести к более подходящим методам временного шага (и, следовательно, оптимизации), чем стандартный Эйлер. Несколько примеров из головы:
Есть ли естественное функциональное пространство, в котором живет градиентный поток? Если это так, ваш шаг градиента должен быть взят из того же пространства (т. Е. Дискретизация должна соответствовать). Это приводит, например, к вычислению представлений Рисса градиента относительно различных внутренних произведений (иногда называемых градиентами Соболева ) и, на практике, к предварительно обусловленным итерациям, которые сходятся гораздо быстрее.
Возможно, должен принадлежать не векторному пространству, а многообразию (например, симметричным положительно определенным матрицам), или поток градиента должен сохранять определенную норму . В этом случае вы можете попытаться применить сохраняющие структуру схемы пошагового изменения времени (например, с использованием отката относительно соответствующей группы Ли или геометрического интегратора).xx
Если не дифференцируемо, но выпукло, шаг Эйлера вперед соответствует методу субградиентного спуска, который может быть очень медленным из-за ограничений размера шага. С другой стороны, неявный шаг Эйлера соответствует методу проксимальной точки , к которому такие ограничения не применяются (и который, таким образом, стал очень популярным, например, при обработке изображений).f
Аналогичным образом, такие методы могут быть значительно ускорены с помощью этапов экстраполяции. Один из способов мотивировать их - наблюдать, что стандартные методы первого порядка страдают от необходимости делать много маленьких шагов близко к минимизаторам, потому что направления градиента «колеблются» (представьте себе стандартную иллюстрацию того, почему сопряженные градиенты превосходят крутой спуск). Чтобы исправить это, можно «ослабить» итерацию, не решая динамическую систему первого порядка, а систему второго порядка :
для соответственно выбранного . При правильной дискретизации это приводит к итерации (известной как метод Поляка для тяжелых шариков ) вида
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(с зависимости от ). Аналогичные идеи существуют для методов проксимальной точки, см., Например, статью Дирка Лоренца и Томаса Пока http://arxiv.org/pdf/1403.3522.pdf .γk,αka1,a2
(Я должен добавить, что, насколько мне известно, в большинстве этих случаев интерпретация как динамическая система не была строго необходима для вывода или доказательства сходимости алгоритма; можно утверждать, что такие идеи, как «неявное или явное» или производные Ли на самом деле более фундаментальны, чем динамические системы или методы градиентного спуска. Тем не менее, никогда не помешает иметь другую точку зрения на проблему.)
РЕДАКТИРОВАТЬ: Я только что наткнулся на отличный пример из второго контекста, где интерпретация ODE используется для определения свойств экстраградиентного метода Нестерова и предложить улучшения:
http://arxiv.org/pdf/1503.01243.pdf
(Обратите внимание, что это также пример точки Джеда Брауна, в которой авторы по существу заново открывают пункт 4 выше, очевидно, не зная об алгоритме Поляка.)
РЕДАКТИРОВАТЬ 2: И как показатель того, как далеко вы можете это сделать, см. Стр. 5 http://arxiv.org/pdf/1509.03616v1.pdf .