Линейное программирование с матричными ограничениями

обзор

Возможно, вы захотите попробовать вариант метода множителей с альтернативными направлениями (ADMM), который, как было обнаружено, неожиданно быстро сходится для типа лассо. Стратегия состоит в том, чтобы сформулировать проблему с помощью расширенного лагранжиана, а затем выполнить градиентное восхождение по двойной задаче. Это особенно хорошо для этой конкретной регуляризованной задачи, потому что негладкая часть каждой итерации метода имеет точное решение, которое вы можете просто оценить элемент за элементом, в то время как гладкая часть включает в себя решение линейной системы. $l_1$ $l^1$

В этом посте мы

получить общую формулировку ADMM для обобщения вашей проблемы,
получить подзадачи для каждой итерации ADMM и специализировать их в вашей ситуации, а затем
исследовать полученную линейную систему , которая должна быть решена каждой итерации, и разработать быстрый решатель (или предобуславливатель) на основе предварительного вычисления собственного значения разложения (или низкий ранг приближения этого) для и . $M^TM$ $YY^T$
резюмируя несколько заключительных замечаний

Большинство важных идей здесь описаны в следующем превосходном обзоре:

Бойд, Стивен и др. «Распределенная оптимизация и статистическое обучение с помощью метода переменных множителей». Основы и тенденции в машинном обучении 3.1 (2011): 1-122. http://www.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf

Прежде чем углубляться в детали, я хочу заметить, что это ответ метода / алгоритма, а не практический ответ кода - если вы хотите использовать этот метод, вам потребуется развернуть собственную реализацию.

ADMM формулировка

В общем, предположим, что вы хотите решить

\begin{aligned} min_{x} & \sum_{i} | x_{i} | \\ s.t. & A x = b \end{aligned} .

$\begin{array}{rl} \min_{x} & \sum_{i} |x_i|\\ \textrm{s.t.} & Ax = b \end{array}.$

Проблема в оригинальном посте попадает в эту категорию после соответствующей векторизации. (это только в принципе - мы увидим, что векторизация не должна выполняться на практике)

Вместо этого вы можете решить эквивалентную задачу: с лагранжевым

\begin{aligned} \underset{Икс, Z}{мин} & \underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} | | Икс - Z | |^{2} + \frac{β}{2} | | A Z - б | |^{2} \\ улица & A Z знак равно б \\ & & Икс знак равно Z, \end{aligned}

$\begin{array}{rl} \min_{x,z} & \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 \\ \textrm{s.t.} & Az = b \\ \textrm{&} & x = z, \end{array}$

\begin{aligned} L (Икс, Z, λ, γ) знак равно & \underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} | | Икс - Z | |^{2} + \frac{β}{2} | | A Z - б | |^{2} + λ^{T} (A Z - б) + γ^{T} (Икс - Z) \\ знак равно & \underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} | | Икс - Z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A Z - б + \frac{1}{β} λ | |^{2} \\ + \frac{α}{2} | | \frac{1}{α} γ | |^{2} + \frac{β}{2} | | \frac{1}{β} λ | |^{2}, \end{aligned}

$\begin{align} L(x,z,\lambda,\gamma) =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 + \lambda^T(Az-b) + \gamma^T(x-z) \\ =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2 \\ &+ \frac{\alpha}{2}||\frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||\frac{1}{\beta}\lambda||^2. \end{align}$

Метод мультипликаторов с переменным направлением решает двойственную задачу, посредством градиентного подъема по двойственным переменным, за исключением неточные чередующиеся проекции на двойственные подзадачи. То есть каждый выполняет итерацию

\underset{λ, γ}{Максимум} \underset{Икс, Z}{мин} L (Икс, Z, λ, γ),

$\max_{\lambda,\gamma} \min_{x,z} L(x,z,\lambda,\gamma),$

\begin{aligned} {Икс}^{К + 1} & знак равно {a р г м я N}_{Икс} L (Икс, Z^{К}, λ^{К}, γ^{К}) \\ Z^{К + 1} & знак равно {a р г м я N}_{Z} L ({Икс}^{К + 1}, Z, λ^{К}, γ^{К}) \\ γ^{К + 1} & знак равно γ^{К} + α ({Икс}^{К + 1} - Z^{К + 1}) \\ λ^{К + 1} & знак равно λ^{К} + β (A Z^{К + 1} - б), \end{aligned}

$\begin{align} x^{k+1} &= \mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) \\ z^{k+1} &= \mathrm{argmin}_z L(x^{k+1},z,\lambda^k,\gamma^k) \\ \gamma^{k+1} &= \gamma^k + \alpha(x^{k+1}-z^{k+1}) \\ \lambda^{k+1} &= \lambda^k + \beta(Az^{k+1}-b). \end{align}$

При определенных мягких условиях для параметров и (объясненных в статье Бойда и Париха, связанной выше) метод ADMM будет сходиться к истинному решению. Скорость сходимости является линейной, так как в основе лежит метод градиентного всплытия. Часто он может быть ускорен до суперлинейности путем 1) изменения параметров и мере использования эвристики или 2) с использованием ускорения Нестерова. Примечания по изменению параметров штрафа см. В обзоре Бойда, а для использования ускорения Нестерова с ADMM - в следующей статье. $\alpha$ $\beta$ $\alpha$ $\beta$

Гольдштейн, Том, Брендан О'Донохью и Саймон Сетцер. «Быстрые методы оптимизации переменных направлений». Отчет CAM (2012): 12-35. ftp://ftp.math.ucla.edu/pub/camreport/cam12-35.pdf

Однако, даже если общая скорость сходимости является только линейной, для задач наблюдался метод, позволяющий очень быстро найти образец разреженности, а затем медленнее сходиться к точным значениям. Поскольку найти образец разреженности - самая трудная часть, это очень случайно! Точные причины, по-видимому, являются областью современных исследований. Все видят, что шаблоны разреженности сходятся быстро, но никто, кажется, не знает точно, почему это происходит. Некоторое время назад я спросил об этом Бойда и Париха по электронной почте, и Парих подумал, что это можно объяснить интерпретацией метода в контексте систем управления. Другое эвристическое объяснение этого явления можно найти в приложении к следующей статье: $l^1$

Гольдштейн, Том и Стэнли Ошер. «Метод расщепления Брегмана для L1-регуляризованных задач». SIAM Journal of Imaging Sciences 2.2 (2009): 323-343. ftp://ftp.math.ucla.edu/pub/camreport/cam08-29.pdf

Конечно, теперь трудность заключается в решении подзадач обновления и для вашей конкретной ситуации. Поскольку лагранжиан квадратичен по , подзадача обновления просто требует решения линейной системы. подзадача кажется сложнее , так как это недифференцируема, но оказывается, что есть точная формула для решения , которые могут быть применены поэлементно! Теперь мы обсудим эти подзадачи более подробно и укажем их на проблему в исходном посте. $x$ $z$ $z$ $z$ $x$

Настройка для подзадачи update (линейная система) $z$

Для обновления у нас есть $z$

{a р г м я N}_{Z} L ({Икс}_{К}, Z, λ_{К}, γ_{К}) знак равно {a р г м я N}_{Z} \frac{α}{2} | | Икс - Z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A Z - б + \frac{1}{β} λ | |^{2},

$\mathrm{argmin}_z L(x_k,z,\lambda_k,\gamma_k) = \mathrm{argmin}_z \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2.$

Специализируется на вашей проблеме:

\begin{aligned} {a р г м я N}_{Z_{J}, Z_{В}} & \frac{α}{2} | | J^{К + 1} - Z_{J} + \frac{1}{α} Γ_{J} | |_{F р о}^{2} + \frac{α}{2} | | В^{К + 1} - Z_{В} + \frac{1}{α} Γ_{В} | |_{F р о}^{2} \\ + \frac{β}{2} | | M Z_{J} + Z_{В} Y - Икс + \frac{1}{α} Λ | |_{F р о}^{2}, \end{aligned}

$\begin{align} \mathrm{argmin}_{Z_J,Z_B} &\frac{\alpha}{2}||J^{k+1}-Z_J + \frac{1}{\alpha}\Gamma_J||_{Fro}^2 + \frac{\alpha}{2}||B^{k+1}-Z_B + \frac{1}{\alpha}\Gamma_B||_{Fro}^2 \\ &+\frac{\beta}{2}||MZ_J + Z_BY - X + \frac{1}{\alpha}\Lambda||^2_{Fro}, \end{align}$

где обозначает норму Фробениуса (поэлементно ). Это задача квадратичной минимизации, где условия оптимальности первого порядка можно найти, взяв частные производные цели по и и установив их в ноль. Это $||\cdot||Fro$ $l_2$ $Z_J$ $Z_B$

\begin{aligned} 0 & знак равно - \frac{α}{2} (J^{К + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{В} Y - Икс + \frac{1}{β} Λ), \\ 0 & знак равно - \frac{α}{2} (В^{К + 1} - Z_{В} + \frac{1}{α} Γ_{В}) + \frac{β}{2} (M Z_{J} + Z_{В} Y - Икс + \frac{1}{β} Λ) Y^{T}, \end{aligned}

$\begin{align} 0 &= -\frac{\alpha}{2}(J^{k+1} - Z_J + \frac{1}{\alpha}\Gamma_J) + \frac{\beta}{2}M^T(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda), \\ 0 &= -\frac{\alpha}{2}(B^{k+1} - Z_B + \frac{1}{\alpha}\Gamma_B) + \frac{\beta}{2}(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda)Y^T. \end{align}$

Как отмечается в комментариях оригинального автора Джастина Соломона, эта система для является симметричной, поэтому сопряженный градиент является идеальным методом без матрицы. В следующем разделе обсуждается эта система и как ее решить / подготовить более подробно. $Z_J,Z_B$

Решение подзадачи update (решение для аналитического порога) $x$

Теперь обратимся к подзадаче , $x$

{a р г м я N}_{Икс} L (Икс, Z^{К}, λ^{К}, γ^{К}) знак равно {a р г м я N}_{Икс} \underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} | | Икс - Z^{К} + \frac{1}{α} γ^{К} | |^{2}

$\mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) = \mathrm{argmin}_x \sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2$

Первое, что нужно увидеть, это то, что сумма может быть разбита по элементам,

\underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} | | Икс - Z^{К} + \frac{1}{α} γ^{К} | |^{2} знак равно \underset{я}{Σ} | {Икс}_{я} | + \frac{α}{2} \underset{я}{Σ} ({Икс}_{я} - Z_{я}^{К} + \frac{1}{α} γ_{я}^{К})^{2},

$\sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2 = \sum_{i} |x_i| + \frac{\alpha}{2}\sum_i (x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2,$

Таким образом, мы можем решить задачу оптимизации элемент за элементом параллельно, получив

{Икс}_{я}^{К + 1} знак равно {a р г м я N}_{{Икс}_{я}} | {Икс}_{я} | + \frac{α}{2} ({Икс}_{я} - Z_{я}^{К} + \frac{1}{α} γ_{я}^{К})^{2},

$x_i^{k+1} = \mathrm{argmin}_{x_i} |x_i| + \frac{\alpha}{2}(x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2.$

Общая форма этого уравнения:

\underset{s}{мин} | s | + \frac{α}{2} (s - T)^{2},

$\min_s |s| + \frac{\alpha}{2}(s-t)^2.$

Функция абсолютного значения пытается потянуть оптимальную точку к , тогда как квадратичный член пытается потянуть оптимальную точку к . следовательно, истинное решение лежит где-то на отрезке между ними, причем увеличение стремится к вытягиванию оптимальной точки в направлении , а уменьшение вытягивает оптимальную точку в направлении . $s=0$ $s=t$ $[0,t)$ $\alpha$ $t$ $\alpha$ $0$

Это выпуклая функция, но она не дифференцируема в нуле. Условием минимизации является то, что субпроизводное цели в этой точке содержит ноль. Квадратичный член имеет производную , а функция абсолютного значения имеет производную для , субпроизводную с множеством значений в качестве интервала при и производную для , Таким образом, мы получаем субпроизводную для общей целевой функции: $\alpha(s-t)$ $-1$ $s < 0$ $[-1,1]$ $s=0$ $1$ $s > 0$

\partial_{s} (| s | + \frac{α}{2} (s - T)^{2}) знак равно {\begin{cases} 1 + α (s - T) & s > 0 \\ [- 1, 1] + α T, & s знак равно 0, \\ - 1 + α (s - T), & s < 0. \end{cases}

$\partial_s \left(|s| + \frac{\alpha}{2}(s-t)^2\right) = \begin{cases} 1 + \alpha (s-t)\, & s > 0 \\ [-1,1] + \alpha t, & s = 0, \\ -1 + \alpha (s-t), & s < 0. \end{cases}$

Отсюда видно, что субпроизводное цели при содержит тогда и только тогда, когда , в этом случае - это минимизатор. С другой стороны, если не является минимизатором, то мы можем установить однозначную производную равной нулю и решить для минимизатора. Делая это, вы $s=0$ $0$ $|t| \le \frac{1}{\alpha}$ $s=0$ $s=0$

{a р г м я N}_{s} | s | + \frac{α}{2} (s - T)^{2} знак равно {\begin{cases} T - \frac{1}{α}, & T > \frac{1}{α}, \\ 0, & | T | \leq \frac{1}{α}, \\ T + \frac{1}{α}, & T < - \frac{1}{α} \end{cases}

$\mathrm{argmin}_s |s| + \frac{\alpha}{2}(s-t)^2 = \begin{cases} t - \frac{1}{\alpha}, & t > \frac{1}{\alpha}, \\ 0, & |t| \le \frac{1}{\alpha}, \\ t + \frac{1}{\alpha}, & t < -\frac{1}{\alpha} \end{cases}$

Снова специализируя этот результат на реальной проблеме, которую мы пытаемся решить в исходном вопросе, где приводит Обновление для просто $t = Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k$

J_{я J}^{К + 1} знак равно {\begin{cases} Z_{я J}^{К} - \frac{1}{α} Γ_{я J}^{К} - \frac{1}{α}, & Z_{я J}^{К} - \frac{1}{α} Γ_{я J}^{К} > \frac{1}{α}, \\ 0, & | Z_{я J}^{К} - \frac{1}{α} Γ_{я J}^{К} | \leq \frac{1}{α}, \\ Z_{я J}^{К} - \frac{1}{α} Γ_{я J}^{К} + \frac{1}{α}, & Z_{я J}^{К} - \frac{1}{α} Γ_{я J}^{К} < - \frac{1}{α}, \end{cases}

$J_{ij}^{k+1} = \begin{cases} Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k - \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k > \frac{1}{\alpha}, \\ 0, & |Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k| \le \frac{1}{\alpha}, \\ Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k + \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k < -\frac{1}{\alpha}. \end{cases}$

B

$B$

В^{К + 1} знак равно Z_{В} - \frac{1}{α} Γ_{В},

$B^{k+1} = Z_B - \frac{1}{\alpha}\Gamma_B,$

как отметил оригинальный постер Джастина Соломона в комментариях. В целом, выполнение обновления для просто требует циклического просмотра записей ваших матриц и оценки приведенных выше формул для каждой записи. $J,B$

Щур дополнение к системы $Z_J,Z_B$

Самым дорогостоящим шагом итерации является решение системы,

\begin{aligned} 0 & знак равно - \frac{α}{2} (J^{К + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{В} Y - Икс + \frac{1}{β} Λ), \\ 0 & знак равно - \frac{α}{2} (В^{К + 1} - Z_{В} + \frac{1}{α} Γ_{В}) + \frac{β}{2} (M Z_{J} + Z_{В} Y - Икс + \frac{1}{β} Λ) Y^{T}, \end{aligned}

Для этого стоит приложить некоторые усилия для создания хорошего решателя / предобусловливателя для этой системы. В этом разделе мы делаем это путем векторизации , формирования дополнения Шура , выполнения некоторых манипуляций с продуктом Крнёкера, а затем отмены векторизации. Полученная система дополнения Шура представляет собой слегка модифицированное уравнение Сильвестра .

В дальнейшем абсолютно идентичны следующие понятия о векторизации и продуктах Кронекера:

$\mathrm{vec}(ABC) = (C^T \otimes A)\mathrm{vec}(B),$
$(A \otimes B)(C \otimes D) = AC \otimes BD$ ,
$(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}$ и
$(A \otimes B)^T = A^T \otimes B^T$ .

Эти тождества сохраняются всякий раз, когда размеры матриц и обратимость таковы, что каждая сторона уравнения является допустимым выражением.

Векторизованная форма системы:

(α я + β [\begin{matrix} я \otimes M^{T} M & (Y \otimes M)^{T} \\ Y \otimes M & Y Y^{T} \otimes я \end{matrix}]) [\begin{matrix} v е с (Z_{J}) \\ v е с (Z_{В}) \end{matrix}] знак равно [\begin{matrix} v е с (α J + β M^{T} Икс + Γ_{J} - M^{T} Λ) \\ v е с (α В + β Икс Y^{T} + Γ_{В} - Λ Y^{T}) \end{matrix}],

$\left(\alpha I +\beta\begin{bmatrix}I \otimes M^TM & (Y \otimes M)^T \\ Y \otimes M & YY^T \otimes I\end{bmatrix}\right)\begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(\alpha J + \beta M^TX + \Gamma_J - M^T\Lambda) \\ \mathrm{vec}(\alpha B + \beta XY^T + \Gamma_B - \Lambda Y^T)\end{bmatrix},$

или

[\begin{matrix} я \otimes (α я + β M^{T} M) & β (Y \otimes M)^{T} \\ β Y \otimes M & (α я + β Y Y^{T}) \otimes я \end{matrix}] [\begin{matrix} v е с (Z_{J}) \\ v е с (Z_{В}) \end{matrix}] знак равно [\begin{matrix} v е с (F) \\ v е с (г) \end{matrix}],

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ \beta Y \otimes M & (\alpha I + \beta YY^T) \otimes I\end{bmatrix} \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G)\end{bmatrix},$

где и - сокращенные обозначения для правой части. Теперь мы выполняем блок-гауссово-исключение / дополнение Шура, чтобы исключить нижний левый блок матрицы в процессе конденсации продуктов Кронекера. Это $F$ $G$

[\begin{matrix} я \otimes (α я + β M^{T} M) & β (Y \otimes M)^{T} \\ 0 & (α я + β Y Y^{T}) \otimes я - β^{2} Y Y^{T} \otimes M (α я + β M^{T} M)^{- 1} M^{T} \end{matrix}] ... \cdot [\begin{matrix} v е с (Z_{J}) \\ v е с (Z_{В}) \end{matrix}] знак равно [\begin{matrix} v е с (F) \\ v е с (г) - β Y \otimes M (α я + β M^{T} M)^{- 1} v е с (F) \end{matrix}],

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ 0 & (\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T\end{bmatrix} \dots \\ \cdot \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G) - \beta Y \otimes M(\alpha I + \beta M^TM)^{-1}\mathrm{vec}(F)\end{bmatrix}.$

Невекторизовав, два уравнения, которые мы должны решить последовательно:

$Z_{В} (α я + β Y Y^{T}) - (β M (α я + β M^{T} M)^{- 1} M^{T}) Z_{В} (β Y Y^{T}) ... знак равно г - β M (α я + β M^{T} M)^{- 1} F Y^{T}$ $Z_B (\alpha I + \beta YY^T) - (\beta M (\alpha I + \beta M^TM)^{-1} M^T)Z_B(\beta YY^T) \dots \\ = G - \beta M (\alpha I + \beta M^TM)^{-1} F Y^T$
$(α я + β M^{T} M) Z_{J} знак равно F - β M^{T} Z_{В} Y,$ $(\alpha I + \beta M^TM) Z_J = F - \beta M^T Z_B Y.$

Решение системы дополнения Шура, когда квадратные, высокого ранга $Y,M$

В этом разделе мы решаем систему дополнения Шура для (уравнение 1. выше), используя предварительно вычисленные полные SVD матриц и применяя модифицированную версию алгоритма Бартельс-Стюарта для Сильвестра уравнение. Алгоритм немного изменен по сравнению со стандартной версией, чтобы учесть дополнительный на втором члене, что делает его не совсем уравнением Сильвестра. Как только найден с помощью первого уравнения, может быть легко найден из второго уравнения. Второе уравнение тривиально для решения любым способом, который вам нравится. $Z_B$ $YY^T, MM^T, M^TM$ $\beta YY^T$ $Z_B$ $Z_J$

Этот метод требует предоплаты за предварительное вычисление двух полных SVD до запуска процесса ADMM, но затем быстро применяется в реальных итерациях ADMM. Так как метод имеет дело с полными SVD матриц ограничений, он подходит, когда они близки к квадрату и высокому рангу. Также возможен более сложный метод с использованием SVD низкого ранга, но он будет представлен в следующем разделе.

Способ развивается следующим образом. Пусть обозначает предварительно вычисленное полное сингулярное значение разложения, и конденсируется правая сторона , чтобы быть . Тогда первое уравнение становится: Умножение с помощью ортогональных факторов для очистки левого и правого и установки нового временного неизвестного , это далее становится,

Q D Q^{T} знак равно Y Y^{T}, W Σ W^{T} знак равно M M^{T}, В T В^{T} знак равно M^{T} M

$Q D Q^T = YY^T, \\ W\Sigma W^T = MM^T, \\ VTV^T = M^TM$

H

$H$

Z_{В} Q (α я + D) Q^{T} - W β Σ (α я + Σ)^{- 1} Σ W^{T} Z_{В} Q D Q^{T} знак равно ЧАС,

$Z_B Q (\alpha I + D) Q^T - W \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma W^T Z_B Q D Q^T = H.$

A = W^{T} Z_{B} Q

$A = W^T Z_B Q$

A (α я + D) - β Σ (α я + Σ)^{- 1} Σ A D знак равно W ЧАС Q^{T},

$A (\alpha I + D) - \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma A D = W H Q^T.$

Теперь мы можем найти , решив диагональную систему: $A$

((α я + D) \otimes я + D \otimes β Σ (α я + Σ)^{- 1} Σ) v е с (A) знак равно v е с (W ЧАС Q^{T}),

$\left((\alpha I + D) \otimes I + D \otimes \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma \right)\mathrm{vec}(A) = \mathrm{vec}(W H Q^T).$

Найдя , мы вычисляем , и, зная мы решаем второе уравнение выше для , которое является тривиальным, поскольку у нас уже есть разложение по собственным значениям для . $A$ $Z_B = W A Q^T$ $Z_B$ $Z_J$ $M^TM$

Первоначальная стоимость - это вычисление двух симметричных положительно определенных разложений по собственным значениям и , а затем в цене за одну итерацию для полного решения преобладает несколько умножений матрица-матрица, которые имеют тот же порядок Величина как делает 1 CG сублитерации. Если предварительные разложения по собственным значениям слишком дороги, то их можно вычислить неточно, например, досрочно завершив итерацию Ланцоша и сохранив самые большие собственные векторы. Тогда этот метод можно использовать в качестве хорошего предварительного условия для CG, а не в качестве прямого решателя. $M^TM$ $YY^T$

Метод решения, когда очень прямоугольные или имеют приближение низкого ранга $M,Y$

Теперь мы наше внимание на решение или предварительную подготовку когда либо a) входные матрицы очень прямоугольные - это означает, что у них намного больше строк, чем столбцов, или наоборот - или b) они имеют приближение низкого ранга. Вывод ниже включает в себя широкое использование формулы Вудбери, дополнения Шура и других подобных манипуляций. $Z_J,Z_B$ $M,Y$

Мы начнем с нашей системы дополнения Шура,

(α я + β Y Y^{T}) \otimes я - β^{2} Y Y^{T} \otimes M (α я + β M^{T} M)^{- 1} M^{T},

$(\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T.$

Несколько манипуляций превращают эту систему в более симметричную форму

(α я + β я \otimes M M^{T} + β Y Y^{T} \otimes я) v е с (Z_{В}) знак равно (я \otimes (я + \frac{β}{α} M M^{T})) v е с (ЧАС),

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)\mathrm{vec}(Z_B) = \left(I \otimes (I + \frac{\beta}{\alpha}MM^T)\right)\mathrm{vec}(H).$

Теперь введем приближения низкого ранга. Пусть будет либо приведенным приближением SVD, либо приближением низкого ранга для и ( является заполнителем и не является используемый). Подстановка их в нашу систему приводит к следующей обратной матрице, которую мы хотим применить,

Q D^{1 / 2} Q_{2}^{T} знак равно Y W Σ^{1 / 2} В^{T} знак равно M

$Q D^{1/2} Q_2^T = Y \\ W \Sigma^{1/2} V^T = M$

Y

$Y$

M

$M$

Q_{2}

$Q_2$

(α я + β я \otimes W Σ W^{T} + β Y Y^{T} \otimes я)^{- 1},

$(\alpha I + \beta I \otimes W \Sigma W^T + \beta YY^T \otimes I)^{-1}.$

Поскольку матрица, которую мы используем для инвертирования, является обновлением низкого ранга идентичности, логическая стратегия состоит в том, чтобы попытаться использовать формулу Вудбери,

(A + U С U^{T})^{- 1} знак равно A^{- 1} - A^{- 1} U (С^{- 1} + U^{T} A^{- 1} U)^{- 1} U^{T} A^{- 1},

$(A + UCU^T)^{-1} = A^{-1} - A^{-1}U(C^{-1}+U^TA^{-1}U)^{-1}U^TA^{-1}.$

Тем не менее, требуется некоторая осторожность, так как младшие куски и не являются ортогональными. Таким образом, чтобы применить формулу Вудбери, мы собираем оба обновления низкого ранга в одно большое обновление. Поступайте так и применяя формулу Вудбери, $I \otimes W$ $Y \otimes I$

{(\frac{1}{α} я + β [\begin{matrix} я \otimes W & Q \otimes я \end{matrix}] [\begin{matrix} я \otimes Σ \\ D \otimes Y \end{matrix}] [\begin{matrix} я \otimes Σ^{T} \\ Q^{T} \otimes я \end{matrix}])}^{- 1} знак равно α я - \frac{β}{α^{2}} [\begin{matrix} я \otimes W & Q \otimes я \end{matrix}] {[\begin{matrix} я \otimes (Σ^{- 1} + \frac{β}{α} я) & \frac{β}{α} Q \otimes W^{T} \\ \frac{β}{α} Q^{T} \otimes W & (D^{- 1} + \frac{β}{α} я) \otimes Y \end{matrix}]}^{- 1} [\begin{matrix} я \otimes Σ^{T} \\ Q^{T} \otimes я \end{matrix}],

$\left(\frac{1}{\alpha} I + \beta \begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes \Sigma & \\ & D \otimes Y\end{bmatrix}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}\right)^{-1} \\ = \alpha I - \frac{\beta}{\alpha^2}\begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes (\Sigma^{-1}+\frac{\beta}{\alpha}I) & \frac{\beta}{\alpha}Q \otimes W^T\\ \frac{\beta}{\alpha}Q^T\otimes W & (D^{-1} + \frac{\beta}{\alpha}I) \otimes Y\end{bmatrix}^{-1}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}.$

Обратное ядро может быть вычислено по блочной обратной формуле 2x2:

{[\begin{matrix} A & В \\ В^{T} & С \end{matrix}]}^{- 1} знак равно [\begin{matrix} (A - В С^{- 1} В^{T})^{- 1} & - A^{- 1} В (С - В^{T} A^{- 1} В)^{- 1} \\ - С^{- 1} В^{T} (A - В С^{- 1} В^{T})^{- 1} & (С - В^{T} A^{- 1} В)^{- 1} \end{matrix}],

$\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}^{-1} = \begin{bmatrix}(A-BC^{-1}B^T)^{-1} & -A^{-1}B(C-B^TA^{-1}B)^{-1} \\ -C^{-1}B^T(A-BC^{-1}B^T)^{-1} & (C-B^TA^{-1}B)^{-1}\end{bmatrix}.$

Эта статья уже достаточно длинна, поэтому я позабочусь о длинных деталях вычислений, но в результате мы добавим необходимые подматрицы в блочную инверсию и умножим все на части, получая следующую явную форму для общей инверсии

(α я + β я \otimes M M^{T} + β Y Y^{T} \otimes я)^{- 1} знак равно \frac{1}{α} я - \frac{β}{α^{2}} (T_{11} + s_{11} + T_{12} + s_{12} + T_{21} + s_{21} + T_{22} + s_{22}),

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)^{-1} = \frac{1}{\alpha} I - \frac{\beta}{\alpha^2}(t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),$

где

\begin{aligned} T_{11} & знак равно \frac{α}{β} я \otimes W L^{- 1} W^{T} \\ s_{11} & знак равно (Q \otimes W L^{- 1}) D_{11} (Q^{T} \otimes L^{- 1} W^{T}) \\ T_{12} & знак равно - \frac{α}{β} Q {час}^{- 1} Q^{T} \otimes W L^{- 1} W^{T} \\ s_{12} & знак равно - (Q {час}^{- 1} \otimes W L^{- 1}) D_{22} ({час}^{- 1} Q^{T} \otimes W^{T}) \\ T_{21} & знак равно T_{12} \\ s_{21} & знак равно - (Q {час}^{- 1} \otimes W) D_{22} ({час}^{- 1} Q^{T} \otimes L^{- 1} W^{T}) \\ T_{22} & знак равно \frac{α}{β} Q {час}^{- 1} Q^{T} \otimes я \\ s_{22} & знак равно (Q {час}^{- 1} \otimes W) D_{22} ({час}^{- 1} Q^{T} \otimes W^{T}) \\ D_{11} & знак равно \frac{α}{β} {(час \otimes я - я \otimes L^{- 1})}^{- 1} \\ D_{22} & знак равно \frac{α}{β} {(я \otimes L - {час}^{- 1} \otimes я)}^{- 1} \\ L & знак равно \frac{α}{β} Σ^{- 1} + я \\ час & знак равно \frac{α}{β} D^{- 1} + я, \end{aligned}

$\begin{align} t_{11} &= \frac{\alpha}{\beta}I \otimes W l^{-1} W^T \\ s_{11} &= (Q \otimes W l^{-1})D_{11}(Q^T \otimes l^{-1}W^T) \\ t_{12} &= -\frac{\alpha}{\beta} Q h^{-1} Q^T \otimes W l^{-1} W^T \\ s_{12} &= -(Q h^{-1} \otimes W l^{-1})D_{22}(h^{-1} Q^T \otimes W^T) \\ t_{21} &= t_{12} \\ s_{21} &= -(Q h^{-1} \otimes W)D_{22}(h^{-1} Q^T \otimes l^{-1} W^T) \\ t_{22} &= \frac{\alpha}{\beta}Q h^{-1} Q^T \otimes I \\ s_{22} &= (Q h^{-1} \otimes W)D_{22}(h^{-1}Q^T \otimes W^T) \\ D_{11} &= \frac{\alpha}{\beta}\left(h \otimes I - I \otimes l^{-1} \right)^{-1} \\ D_{22} &= \frac{\alpha}{\beta}\left(I \otimes l - h^{-1} \otimes I \right)^{-1} \\ l &= \frac{\alpha}{\beta} \Sigma^{-1} + I \\ h &= \frac{\alpha}{\beta} D^{-1} + I. \end{align}$

В этой форме мы можем применить обратное и найти термин по через 8 левых и правых сэндвичей умножения матриц. Общая формула для применения суммы произведений Кронекера: $Z_B$

((A_{1} \otimes В_{1}) + (A_{2} \otimes В_{2}) + ...) v е с (С) знак равно v е с (В_{1}^{T} С A_{1} + В_{2}^{T} С A_{2} + ...),

$\left((A_1 \otimes B_1) + (A_2 \otimes B_2) + \dots\right)\mathrm{vec}(C) = \mathrm{vec}(B_1^T C A_1 + B_2^T C A_2 + \dots ).$

Обратите внимание, что все явные инверсии, с которыми мы закончили, являются диагональными, так что нечего «решать».

Код линейного решателя

Я реализовал два решателя в Matlab. Кажется, работает хорошо. Код решателя здесь. $z_J,Z_B$

https://github.com/NickAlger/MeshADMM/blob/master/zkronsolve.m

Тестовый скрипт для проверки работы решателей находится здесь. На примере также показано, как вызывать код решателя.

https://github.com/NickAlger/MeshADMM/blob/master/test_zkronsolve.m

Заключительные замечания

Методы ADMM-типа хорошо подходят для подобных задач, но вам нужно будет развернуть собственную реализацию. Общая структура метода довольно проста, поэтому его реализация не так сложна в чем-то вроде MATLAB.

Часть, отсутствующая в этом посте, которая должна быть указана для полного определения метода вашей проблемы, - это выбор параметров штрафа . К счастью, метод, как правило, довольно надежный, пока значения параметров не сумасшедшие. В статье Бойда и Париха есть раздел о параметрах штрафа, как и ссылки в нем, но я бы просто экспериментировал с параметрами, пока вы не получите разумную скорость сходимости. $\alpha,\beta$

Представленные очень эффективны, если матрицы ограничений либо: а) плотные, квадратные и высокого ранга, либо б) имеют хорошее приближение низкого ранга. Другой полезный решатель , который может быть темой будущей работы будет решатель оптимизирован для следующего случая - ограничение матрица разрежена и squareish и высокого ранга, но существует хороший переобусловливатель для . Это имело бы место, если, например, является дискретным лапласианом. $Z_J,Z_B$ $M$ $\alpha I + MM^T$ $M$

— Ник Алджер
источник

Реализуем это сейчас! Чтобы проверить, матричное решение для и должно быть симметричным / положительно определенным, поскольку оно исходит из наименьших квадратов, верно? Эмпирически это похоже на правду :-). Итак, CG - лучший вариант, чем GMRES?

Z_{B}

$Z_B$

Z_{J}

$Z_J$

— Джастин Соломон

Кроме того, я думаю, что обновление для B не так? Я прорабатываю это более подробно, но вспомните, что B не отображается в моей энергетической функции (нет term), поэтому я не уверен, что она должна принимать значения только в Я думаю об этом неправильно? Спасибо!

| B |

$|B|$

\pm (1 - 1 / α) .

$\pm (1-1/\alpha).$

— Джастин Соломон

[скорее, ]

B = Z_{B} - Γ_{B} / α

$B = Z_B-\Gamma_B/\alpha$

— Джастин Соломон

Удивительно! После добавления моих собственных формул для и (вероятно, близко / эквивалентно тому, что вы опубликовали, но что-то не работает), это намного превосходит метод IRLS. Спасибо!

J

$J$

B

$B$

— Джастин Соломон

Отличные новости. Так приятно видеть, когда вклады здесь приводят к реальным результатам.

— Майкл Грант