Хорошо ли известно, что некоторые проблемы оптимизации эквивалентны увеличению времени?

19

$y_0$ $\beta \in \mathbb R$ $y$ $u$

\frac{1}{2} ‖ y - y_{0} ‖^{2} + \frac{β}{2} ‖ u ‖^{2}

$\begin{equation} \frac{1}{2} \| y - y_0 \|^2 + \frac{\beta}{2} \| u \|^2 \end{equation}$

A y = u .

$\begin{equation} Ay = u. \end{equation}$

y, y_{0}, u \in R^{n}

$y, y_0, u \in \mathbb R^n$

A \in R^{n \times n}

$A \in \mathbb R^{n \times n}$

Формируя лагранжиан, ища стационарные точки и устраняя управление мы получаем условия первого порядка Предварительно умножив на в первом уравнении и во втором, мы можем записать нормальные уравнения Мы можем интерпретировать их как отдельные шаги обратных эйлеровых приближений к дифференциальным уравнениям $u$

\begin{aligned} A^{T} λ & = y_{0} - y \\ A y & = \frac{1}{β} λ \end{aligned}

$\begin{align*} A^T \lambda &= y_0 - y \\ Ay &= \frac{1}{\beta} \lambda \end{align*}$

A

$A$

A^{T}

$A^T$

\begin{aligned} (I + β A A^{T}) λ & = β A y_{0} \\ (I + β A^{T} A) y & = y_{0} \end{aligned}

$\begin{align} (I + \beta A A^T) \lambda &= \beta A y_0 \\ (I + \beta A^T A) y &= y_0 \end{align}$

\begin{aligned} \frac{\partial λ}{\partial b} & = - A A^{T} λ + A y_{0}, λ (0) = 0 \\ \frac{\partial y}{\partial b} & = - A^{T} A y, y (0) = y_{0} \end{aligned}

$\begin{align} \frac{\partial \lambda}{\partial b} &= -A A^T \lambda + A y_0, \quad \lambda(0) = 0 \\ \frac{\partial y}{\partial b} &= -A^T A y, \quad y(0) = y_0 \end{align}$ с псевдо-шагом .

β

$\beta$

Мой вопрос: хорошо ли известна эта связь? Обсуждается ли это в стандартных методах временного перехода или оптимизации? (Мне кажется, это обеспечивает какую-то интуитивную связь между ними.)

Идея кажется достаточно простой, что она должна быть хорошо известна, но ни поиск литературы, ни общение с людьми не дали мне хорошего источника, где это обсуждается. Самым близким, что я нашел, является статья О. Шерцера и Дж. Вайхерта (J. Math Imaging Vision 12 (2000) pp. 43-63), в которой говорится о связи в первом предложении тезисов (!), Но не предоставить любые ссылки или изучить связь на любой глубине.

В идеале я ищу ссылку, которая не только устанавливает связь, но и исследует некоторые последствия (например, можно было бы представить предварительное условие задачи оптимизации с помощью дешевого шага Эйлера вперед).

optimization reference-request time-integration

— Эндрю Т. Баркер
источник

1

Вообще говоря (и, как вы, вероятно, уже знаете), подходы с псевдо-временным переходом являются хорошо известными методами для решения алгебраических уравнений (таких как описываемая вами система KKT) путем постановки задачи нахождения стационарного состояния ряда ОДУ, где переменная времени действительно псевдо-время. Тем не менее, я не знаю какой-либо конкретной связи, относящейся к конкретному экземпляру условий KKT с одним обратным шагом Эйлера.

— Джефф Оксберри

Кроме того, вам нужно решить только один из двух ODE, так как вы можете использовать одно из необходимых условий первого порядка для вычисления, например, из .

y

$y$

λ

$\lambda$

— Кристиан Клэйсон

17

Как упоминал Джед Браун, связь между градиентным спуском в нелинейной оптимизации и переходом во времени динамических систем переоткрывается с некоторой частотой (понятно, поскольку это очень удовлетворительная связь с математическим разумом, поскольку она связывает две, казалось бы, разные области). Однако это редко оказывается полезным соединением, особенно в контексте, который вы описываете.

В обратных задачах, люди заинтересованы в решении (некорректных) операторного уравнения с не в диапазоне . (Вашу задачу оптимального управления можно рассматривать как один ее экземпляр с и .) Несколько стратегий регуляризации (таких как Тихонов или Ландвебер) можно интерпретировать как единое псевдо-время шаг определенного класса. Идея состоит в том, чтобы затем использовать интерпретацию параметра регуляризации в качестве длины шага, чтобы получить некоторые (адаптивные, апостериорные) правила выбора для параметра - фундаментальную проблему в обратных задачах - и, возможно, сделать несколько шагов псевдо-времени для приблизиться к истинному нерегулярному решению (аналогично $F(u)=y^\delta$ $y^\delta$ $F$ $F=A^{-1}$ $y^\delta = y_0$ численное продолжение ). Это иногда называется непрерывной регуляризацией и обычно обсуждается в контексте методов установки уровня; см., например, главу 6.1 Kaltenbacher, Scherzer, Neubauer: итерационные методы регуляризации для нелинейных некорректных задач (de Gruyter, 2008).

Второй контекст, в котором эта идея неоднократно возникает, - нелинейная оптимизация: если вы посмотрите на шаг градиентного спуска для , то вы можете интерпретировать это как вперед шаг Эйлера для динамической системы Как отметил Джед Браун, это на первый взгляд дает только не очень удивительное наблюдение, что этот метод сходится, при условии, что шаги псевдо времени достаточно малы. Интересная часть возникает, когда вы смотрите на динамическую систему и спрашиваете себя, каковы свойства непрерывного решения так называемого градиентного потока $\min_x f(x)$

x^{k + 1} = x^{k} - γ_{k} \nabla f (x^{k}),

$x^{k+1} = x^k - \gamma_k \nabla f(x^k),$

\dot{x} (t) = - \nabla f (x (t)), x (0) = x^{0} .

$\dot x(t) = -\nabla f(x(t)),\qquad x(0) = x^0.$

γ_{k}

$\gamma_k$

x (t)

$x(t)$ имеет (или должен иметь), независимый от градиентного спуска, и от того, может ли это привести к более подходящим методам временного шага (и, следовательно, оптимизации), чем стандартный Эйлер. Несколько примеров из головы:

Есть ли естественное функциональное пространство, в котором живет градиентный поток? Если это так, ваш шаг градиента должен быть взят из того же пространства (т. Е. Дискретизация должна соответствовать). Это приводит, например, к вычислению представлений Рисса градиента относительно различных внутренних произведений (иногда называемых градиентами Соболева ) и, на практике, к предварительно обусловленным итерациям, которые сходятся гораздо быстрее.
Возможно, должен принадлежать не векторному пространству, а многообразию (например, симметричным положительно определенным матрицам), или поток градиента должен сохранять определенную норму . В этом случае вы можете попытаться применить сохраняющие структуру схемы пошагового изменения времени (например, с использованием отката относительно соответствующей группы Ли или геометрического интегратора). $x$ $x$
Если не дифференцируемо, но выпукло, шаг Эйлера вперед соответствует методу субградиентного спуска, который может быть очень медленным из-за ограничений размера шага. С другой стороны, неявный шаг Эйлера соответствует методу проксимальной точки , к которому такие ограничения не применяются (и который, таким образом, стал очень популярным, например, при обработке изображений). $f$
Аналогичным образом, такие методы могут быть значительно ускорены с помощью этапов экстраполяции. Один из способов мотивировать их - наблюдать, что стандартные методы первого порядка страдают от необходимости делать много маленьких шагов близко к минимизаторам, потому что направления градиента «колеблются» (представьте себе стандартную иллюстрацию того, почему сопряженные градиенты превосходят крутой спуск). Чтобы исправить это, можно «ослабить» итерацию, не решая динамическую систему первого порядка, а систему второго порядка : для соответственно выбранного . При правильной дискретизации это приводит к итерации (известной как метод Поляка для тяжелых шариков ) вида
$a_{1} \ddot{x} (t) + a_{2} \dot{x} (t) = - \nabla f (x (t))$ $a_1 \ddot x(t) + a_2 \dot x(t) = -\nabla f(x(t))$ $a_1,a_2$ $x^{k + 1} = x^{k} - γ_{k} \nabla f (x^{k}) + α_{k} (x^{k} - x^{k - 1})$ $x^{k+1} = x^k - \gamma_k \nabla f(x^k) + \alpha_k (x^k - x^{k-1})$ (с зависимости от ). Аналогичные идеи существуют для методов проксимальной точки, см., Например, статью Дирка Лоренца и Томаса Пока http://arxiv.org/pdf/1403.3522.pdf . $\gamma_k,\alpha_k$ $a_1,a_2$

(Я должен добавить, что, насколько мне известно, в большинстве этих случаев интерпретация как динамическая система не была строго необходима для вывода или доказательства сходимости алгоритма; можно утверждать, что такие идеи, как «неявное или явное» или производные Ли на самом деле более фундаментальны, чем динамические системы или методы градиентного спуска. Тем не менее, никогда не помешает иметь другую точку зрения на проблему.)

РЕДАКТИРОВАТЬ: Я только что наткнулся на отличный пример из второго контекста, где интерпретация ODE используется для определения свойств экстраградиентного метода Нестерова и предложить улучшения: http://arxiv.org/pdf/1503.01243.pdf (Обратите внимание, что это также пример точки Джеда Брауна, в которой авторы по существу заново открывают пункт 4 выше, очевидно, не зная об алгоритме Поляка.)

РЕДАКТИРОВАТЬ 2: И как показатель того, как далеко вы можете это сделать, см. Стр. 5 http://arxiv.org/pdf/1509.03616v1.pdf .

— Кристиан Клэйсон
источник

Я принимаю этот ответ, потому что второй абзац наиболее прямо отвечает на вопрос, который я пытался задать, но мне также понравился ответ Джеда Брауна.

— Эндрю Т. Баркер

13

Хотя я не видел точной формулировки, которую вы здесь записали, я продолжаю видеть разговоры, в которых люди «заново открывают» связь с интеграцией некоторой переходной системы и продолжают записывать алгоритм, алгебраически эквивалентный одной форме или другой из существующего градиентного спуска или метод, подобный ньютону, и не в состоянии цитировать кого-либо еще. Я думаю, что это не очень полезно, потому что вывод в основном таков: «Пока вы делаете достаточно маленькие шаги, метод в конечном итоге сходится к локальному минимуму». Что ж, в 2014 году исполняется 45 лет со дня выхода статьи Филиппа Вулфа, показывающей, как это сделать принципиально. Существует также хорошая теория для получения q-квадратичной или q-суперлинейной сходимости из псевдотранзитивного продолжения и связанных с ним методов, таких как Левенберг-Марквардт.

Если вы хотите получить экземпляр этого повторного открытия, используя ньютоноподобную формулировку для решения алгебраических уравнений (то есть классического псевдопереходного продолжения) от математика с более чем 600 работами (так что, возможно, он докажет то, что вы находите интересным), посмотрите на " Метод динамических систем »А.Г. Рамма [1].

Если бы интуиция, полученная при рассмотрении переходной системы, привела к практическим алгоритмам, которые были бы быстрее или надежнее, я думаю, мы бы увидели цитируемые статьи по этому вопросу. Я думаю, что нет ничего загадочного в том, что у Носедаля и Райта более 13000 ссылок, а в книге Рамма - около 80 (в основном это цитаты из себя).

[1] Я могу посоветовать вам не сообщать профессору Рамму, что его DSM алгебраически эквивалентен чему-то, что было в бесчисленных технических пакетах в течение десятилетий, или вы можете выкрикнуть себя из комнаты. #gradstudentmemories

— Джед браун
источник

3

Может быть, будет интереснее увидеть, что ты сказал ему это сейчас, Джед!

— Билл Барт

0

Если методы ODE могут внести вклад в оптимизацию, есть ли действительно простой пример проблемы, чтобы показать это?
Соломенный человек: есть ли решатель ODE, который делает разумную работу над или как предлагает Кристиан Клэйсон для сказать функцию Розенброка, в 2d или 10d? Если это глупо, у кого-нибудь есть лучший соломенный человек? (Обратите внимание, что «разумно», а не «конкурирует с современными оптимизаторами». Я думаю, что нужно уменьшить размер шага / допуск, и, возможно, решающее решение).
$\qquad \dot{ x } = - \nabla f( x )$
$\quad \ddot{ x } = \beta \dot{ x } - \alpha \nabla f( x ) \ \$
$f$

На практике «слишком большие» шаги намного более проблематичны, чем «слишком маленькие» - колебания беспорядочные.
Я наивно думал, что теория управления может помочь. Численные рецепты с. 915 описывает
PI адаптивное управление размером шага для ODE, но я не знаю, используется ли это на практике.

— Денис
источник

Похоже, что вы публикуете новый вопрос в качестве ответа ... Вопросы, связанные с тангенциальной связью, должны быть опубликованы в виде отдельных вопросов или комментариев к ответам.

— Павел

@ Пол, это вообще имеет смысл? Если да, не могли бы вы предложить название для нового вопроса?

— Денис

Я в замешательстве ... Я могу ошибаться, но, похоже, ваш ответ на самом деле не является вопросом ОП. Что именно такое сообщение вы пытаетесь донести и как оно связано с первоначальным вопросом?

— Павел

@ Пол, извини, я не ясно. Насколько я понимаю, вопрос заключается в том, чтобы выяснить связь между конкретной проблемой оптимизации и пошаговыми решениями ODE. Кристиан Клэйсон указывает на прямую связь между градиентным спуском и конкретным решателем ОДУ (форвард-Эйлер). Я комментирую, что такое простая тестовая функция f (), которая показывает решатель ODE, движущийся к минимуму f ()?

— Денис