Квадратичное программирование и лассо

Я пытаюсь выполнить регрессию лассо, которая имеет следующую форму:

Минимизируйте в $w$ $(Y - Xw)'(Y - Xw) + \lambda \;|w|_1$

Учитывая , мне посоветовали найти оптимальное с помощью квадратичного программирования, которое принимает следующую форму: $\lambda$ $w$

Минимизируйте в , в зависимости от $x$ $\frac{1}{2} x'Qx + c'x$ $Ax \le b.$

Теперь я понимаю, что термин должен быть преобразован в термин ограничения , что довольно просто. Однако я почему-то просто не понимаю, как я мог бы перевести первый член первого уравнения в первый член второго. Я не мог найти много об этом в сети, поэтому я решил спросить здесь. $\lambda$ $Ax \le b$

regression lasso quadratic-form

— spurra
источник

Ответы:

Помня, что мы работаем с переменной в качестве переменной в стандартной форме, разверните и соберите термины в и в и , и константы. $w$ $x$ $(Y - Xw)'(Y - Xw)$ $w'\, [\,_{^{^\text{something}}}]\,w$ $w'$ $w$

Объясните, почему вы можете игнорировать константы.

Объясните, почему вы можете объединить термины и . $w'$ $w$

Поскольку BananaCode к настоящему моменту определился с некоторым опережением по пути, вы можете написать и или, проще, вы можете просто написать и (поскольку и имеют одинаковый аргумент argmin для любого ). $Q=2X'X$ $c=-2X'Y$ $Q=X'X$ $c=-X'Y$ $f(x)$ $kf(x)$ $k>0$

— Glen_b - Восстановить Монику
источник

Константы можно игнорировать, потому что если x_ является минимумом f (x), то x_ + c является минимумом f (x) + c, поэтому мы можем игнорировать константу c. Я отредактирую свой вопрос, чтобы показать, где я застрял.

— Спурра

BananaCode у вашего объяснения есть несколько недостатков. Если под «это минимум для » вы подразумеваете «аргумент, при котором минимизируется», вы говорите что-то вроде « - это of ». Но ваш вывод там неверный. Если вы добавите к , вы не добавите к argmin.

f (x)

$f(x)$

f (x)

$f(x)$

x^{*}

$x^*$

argmin

$\text{argmin}$

f

$f$

c

$c$

f

$f$

c

$c$

— Glen_b

Видите, где я написал в моем ответе? Что - то теперь у вас есть между а в нижней части вашего вопроса ??

w^{'} [something] w

$w'\, [\,\text{something}]\,w$

w^{'}

$w'$

w

$w$

— Glen_b

Да, я имел в виду является из . Не могли бы вы привести пример, где мой вывод неверен? является матрицы Я пытаюсь сформировать. Если я расширяю я получаю . Первая часть будет представлять форму матрицы , однако я не могу избавиться от второго члена .

x *

$x*$

a r g m i n

$argmin$

f

$f$

[s o m e t h i n g]

$[something]$

Q

$Q$

w^{'} (X^{'} X w - X^{'} Y)

$w'(X'Xw - X'Y)$

w^{'} X^{'} X w - w^{'} X^{'} Y

$w'X'Xw - w'X'Y$

Q

$Q$

- w^{'} X^{'} Y

$-w'X'Y$

— Спурра

@ AD.Net Ограничения в основном рассматриваются в другом ответе.

— Glen_b

Я хотел добавить, как решить преобразование ограничений очень удобная форма для квадратичного программирования, поскольку она не так проста, как я думал. Невозможно найти вещественную матрицу такую, что . $\sum |w_i| \le s$ $A$ $Aw \le s \leftrightarrow \sum |w_i| \le s$

Подход, который я использовал, состоял в том, чтобы разделить элементы вектора на и , так что . Если , у вас есть и , иначе у вас естьи . Или, в более математических терминах, иИ и - неотрицательные числа. Идея разделения чисел состоит в том, что теперь у вас есть $w_i$ $w$ $w_i^+$ $w_i^-$ $w_i = w_i^+ - w_i^-$ $w_i \ge 0$ $w_i^+ = w_i$ $w_i^- = 0$ $w_i^- = |w_i|$ $w_i^+ = 0$ $w_i^+ = \frac{|w_i| + w_i}{2}$ $w_i^- = \frac{|w_i| - w_i}{2}.$ $w_i^-$ $w_i^+$ $|w_i| = w_i^+ + w_i^-$ , эффективно избавляясь от абсолютных значений.

Функция для оптимизации превращается в: , субъект к $\frac{1}{2}(w^+ - w^-)^TQ(w^+ - w^-) + c^T(w^+ - w^-)$ $w_i^+ + w_i^- \le s, \\ w_i^+,w_i^- \ge 0$

Где и даны как указано выше Glen_b $Q$ $c$

Это должно быть преобразовано в удобную форму, то есть нам нужен один вектор. Это делается следующим образом:

$\frac{1}{2} \bigg[ \begin{array}{c} w^+ \\ w^- \end{array} \bigg]^T \bigg[ \begin{array}{cc} Q & -Q \\ -Q & Q \end{array} \bigg] \bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg] + \big[ \begin{array}{cc} c^T & -c^T \end{array} \big] \bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg]$

при условии

$\bigg[ \begin{array}{cc} I_D & I_D \\ -I_{2D} \end{array} \bigg]\bigg[ \begin{array}{c} w^+ \\ w^- \end{array}\bigg] \le \bigg[ \begin{array}{c} s_D \\ 0_{2D} \end{array}\bigg]$

Где - мерная единичная матрица, - мерный вектор, состоящий только из значения а - -мерный нулевой вектор. Первая половина обеспечивает , второй Теперь можно использовать квадратичное программирование для поиска и , заданных . Как только это будет сделано, вашим оптимальным параметром по отношению к будет . $I_D$ $D$ $s_D$ $D$ $s$ $0_D$ $2*D$ $|w_i| = w_i^+ + w_i^- \le s$ $w_i^+,w_i^- \ge 0$ $w^+$ $w^-$ $s$ $s$ $w = w^+ - w^-$

Источник и дальнейшее чтение: Решение квадратичного программирования с линейными ограничениями , содержащие абсолютные значения

— spurra
источник

Предположим, что мы нашли оптимальный вектор . Что гарантирует , что и на самом деле положительные части и отрицательные части некоторого вектора , т.е. их позиции входа совпадают?

2 D

$2D$

(w^{+}, w^{-})

$(w^+, w^-)$

w^{+}

$w^+$

w^{-}

$w^-$

w

$w$

0

$0$

— Миаф

Матрица и вектор в конечном выражении могут быть более простыми и более правильными. Вместо [Id Id] [w + w−] '≤ Sd вы можете просто указать [1 1 .... 1] [w + w-]' ≤ s. Это буквально эквивалентно ∑ | wi | = ∑ (wi + + wi−) ≤ s.

— Марко