Вывод лассо раствора в закрытой форме

Для задачи Лассо $\min_\beta (Y-X\beta)^T(Y-X\beta)$ такая, что $\|\beta\|_1 \leq t$ . Я часто вижу результат мягкого определения порога

β_{j}^{lasso} = s g n (β_{j}^{LS}) (| β_{j}^{LS} | - γ)^{+}

$\beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+$ для ортонормированного случая

X

$X$ Утверждается, что решение может быть «легко показано» таким, но я никогда не видел работающего решения. Кто-нибудь видел один или, возможно, сделал вывод?

lasso

— Gary
источник

Это кажется немного запутанным. Сначала вы принимаете ограничение

t

$t$ а в решении вводите параметр

γ

$\gamma$ . Я предполагаю, что вы намерены связать эти два аспекта с помощью двойной проблемы, но, возможно, вы сможете уточнить, что вы ищете.

— кардинал

Частично реагируя на @cardinal, обнаружение

β

$\beta$ который минимизирует

(Y - X β)^{'} (Y - X β)

$(Y-X\beta )'(Y-X\beta )$ условии

‖ β ‖_{1} \leq t

$\|\beta\|_1 \leq t$ , эквивалентно нахождению

β

$\beta$ который минимизирует

(Y - X β)^{'} (Y - X β) + γ \sum_{j} | β_{j} |

$(Y-X\beta )'(Y-X\beta )+\gamma\sum_j |\beta_j |$ , Существует связь 1-1 между

t

$t$ и

γ

$\gamma$ . Чтобы «легко» понять, почему результат мягкого определения порога таков, я бы рекомендовал решить второе выражение (в моем комментарии).

Еще одно замечание, при поиске

β

$\beta$ который минимизирует

(Y - X β)^{'} (Y - X β) + γ \sum_{j} | β_{j} |

$(Y-X\beta )'(Y-X\beta )+\gamma\sum_j |\beta_j |$ разбить проблему на случаи

β_{j} > 0

$\beta_j >0$ ,

β_{j} < 0

$\beta_j<0$ и

β = 0

$\beta=0$ .

@ cardinal Ах да, 1-1 неверно. Исправление: для каждого

t \geq 0

$t\geq0$ вы можете найти

γ \geq 0

$\gamma\geq 0$ .

Спасибо за отличную дискуссию! Я наткнулся на это видео на Coursera - « Получение обновления спуска по координатам лассо» , которое очень важно для этой дискуссии, и очень элегантно описывает решение. Может быть полезно для будущих посетителей :-)

— zorbar

Ответы:

Это может быть атаковано несколькими способами, включая довольно экономичные подходы в условиях Каруша-Куна-Такера .

Ниже приведен довольно элементарный альтернативный аргумент.

Решение наименьших квадратов для ортогонального дизайна

Предположим, состоит из ортогональных столбцов. Тогда решение для наименьших квадратов - это $X$

{\hat{β}}^{LS} = (X^{T} X)^{- 1} X^{T} y = X^{T} y .

$\newcommand{\bls}{\hat{\beta}^{{\small \text{LS}}}}\newcommand{\blasso}{\hat{\beta}^{{\text{lasso}}}} \bls = (X^T X)^{-1} X^T y = X^T y \>.$

Некоторые эквивалентные проблемы

Через форму Лагранжа легко увидеть, что проблема, эквивалентная рассматриваемой в вопросе, является

min_{β} \frac{1}{2} ‖ y - X β ‖_{2}^{2} + γ ‖ β ‖_{1} .

$\min_\beta \frac{1}{2} \|y - X \beta\|_2^2 + \gamma \|\beta\|_1 \>.$

Развернув первое слагаемое, мы получим и, поскольку не содержит никаких из переменных, представляющих интерес, мы можем отказаться от него и рассмотреть еще одну эквивалентную проблему, $\frac{1}{2} y^T y - y^T X \beta + \frac{1}{2}\beta^T \beta$ $y^T y$

min_{β} (- y^{T} X β + \frac{1}{2} ‖ β ‖^{2}) + γ ‖ β ‖_{1} .

$\min_\beta (- y^T X \beta + \frac{1}{2} \|\beta\|^2) + \gamma \|\beta\|_1 \>.$

Отметив, что , предыдущая проблема может быть переписана как $\bls = X^T y$

min_{β} \sum_{i = 1}^{p} - {\hat{β}}_{i}^{LS} β_{i} + \frac{1}{2} β_{i}^{2} + γ | β_{i} | .

$\min_\beta \sum_{i=1}^p - \bls_i \beta_i + \frac{1}{2} \beta_i^2 + \gamma |\beta_i| \> .$

Наша целевая функция теперь представляет собой сумму целей, каждая из которых соответствует отдельной переменной , поэтому каждая из них может быть решена индивидуально. $\beta_i$

Целое равно сумме его частей

Исправить определенный . Затем мы хотим минимизировать $i$

L_{i} = - {\hat{β}}_{i}^{LS} β_{i} + \frac{1}{2} β_{i}^{2} + γ | β_{i} | .

$\mathcal L_i = -\bls_i \beta_i + \frac{1}{2}\beta_i^2 + \gamma |\beta_i| \> .$

Если , то мы должны иметь так как в противном случае мы могли бы перевернуть его знак и получить меньшее значение для целевой функции. Аналогично, если , тогда мы должны выбрать . $\bls_i > 0$ $\beta_i \geq 0$ $\bls_i < 0$ $\beta_i \leq 0$

Случай 1 : . Начиная с , и дифференцируя это относительно и устанавливая равным нулю , мы получаем и это возможно только в том случае, если правая часть неотрицательна, поэтому в этом случае реальное решение будет $\bls_i > 0$ $\beta_i \geq 0$

L_{i} = - {\hat{β}}_{i}^{LS} β_{i} + \frac{1}{2} β_{i}^{2} + γ β_{i},

$\mathcal L_i = -\bls_i \beta_i + \frac{1}{2}\beta_i^2 + \gamma \beta_i \> ,$

β_{i}

$\beta_i$

β_{i} = {\hat{β}}_{i}^{LS} - γ

$\beta_i = \bls_i - \gamma$

{\hat{β}}_{i}^{lasso} = ({\hat{β}}_{i}^{LS} - γ)^{+} = s g n ({\hat{β}}_{i}^{LS}) (| {\hat{β}}_{i}^{LS} | - γ)^{+} .

$\blasso_i = (\bls_i - \gamma)^+ = \mathrm{sgn}(\bls_i)(|\bls_i| - \gamma)^+ \>.$

Случай 2 : . Это означает, что у нас должно быть и так Различая и устанавливая равным нулю, мы получаем . Но, опять же, чтобы убедиться, что это выполнимо, нам нужен , который достигается путем взятия $\bls_i \leq 0$ $\beta_i \leq 0$

L_{i} = - {\hat{β}}_{i}^{LS} β_{i} + \frac{1}{2} β_{i}^{2} - γ β_{i} .

$\mathcal L_i = -\bls_i \beta_i + \frac{1}{2}\beta_i^2 - \gamma \beta_i \> .$

β_{i}

$\beta_i$

β_{i} = {\hat{β}}_{i}^{LS} + γ = s g n ({\hat{β}}_{i}^{LS}) (| {\hat{β}}_{i}^{LS} | - γ)

$\beta_i = \bls_i + \gamma = \mathrm{sgn}(\bls_i)(|\bls_i| - \gamma)$

β_{i} \leq 0

$\beta_i \leq 0$

{\hat{β}}_{i}^{lasso} = s g n ({\hat{β}}_{i}^{LS}) (| {\hat{β}}_{i}^{LS} | - γ)^{+} .

$\blasso_i = \mathrm{sgn}(\bls_i)(|\bls_i| - \gamma)^+ \>.$

В обоих случаях мы получаем желаемую форму, и так мы закончили.

Заключительные замечания

— кардинальный
источник

Отличная рецензия @cardinal!

— Гари

+1 Всю вторую половину можно заменить простым наблюдением , что целевая функция является объединение частей двух выпуклых парабол с вершинами в , где отрицательный знак принимается за а положительный - в противном случае. Формула - это просто модный способ выбора нижней вершины.

β \to \frac{1}{2} β^{2} + (\pm γ - \hat{β}) β

$\beta\to\frac{1}{2}\beta^2+(\pm\gamma-\hat{\beta})\beta$

\pm γ - \hat{β}

$\pm\gamma-\hat{\beta}$

β < 0

$\beta\lt 0$

— whuber

Если возможно, я хотел бы видеть выводы, используя условия оптимальности KKT. Какие есть еще способы получить этот результат?

— user1137731

@Cardinal: спасибо за хороший вывод. Одно наблюдение. Насколько я помню, матрица с ортогональными столбцами отличается от ортогональной (или ортонормированной) матрицы. Тогда для некоторой диагональной матрицы (не обязательно единичной матрицы). С предположением об ортогональной матрице (как в оригинальном вопросе) у нас есть и все выглядит великолепно :)

X^{'} X = D

$X'X=D$

D

$D$

X^{'} X = I

$X'X=I$

— Олег Мельников

@cardinal Я не понимаю, почему вы говорите: «иначе мы могли бы перевернуть его знак и получить меньшее значение для целевой функции». Мы берем производную от целевой функции. Так что, если целевая функция выше или ниже, кого это волнует. Все, о чем мы заботимся, это то, что производная установлена на ноль, мы заботимся о крайностях. Выше или ниже константа не влияет на argmin.

— user13985

Предположим , что ковариат , столбцы , также стандартизированы так , что . Позже это просто для удобства: без него нотация становится только более тяжелой, поскольку является только диагональным. Далее предположим, что . Это необходимое предположение для сохранения результата. Определите оценщик наименьших квадратов . Тогда (лагранжева форма) оценки Лассо $x_j$ $X \in \mathbb{R}^{n \times p}$ $X^T X = I$ $X^T X$ $n \geq p$ $\hat\beta_{OLS} = \arg\min_\beta \|y - X \beta\|_2^2$

\begin{aligned} (defn.) & {\hat{β}}_{λ} & = \arg min_{β} \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ (OLS is projection) & = \arg min_{β} \frac{1}{2 n} ‖ X {\hat{β}}_{O L S} - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ (X^{T} X = I) & = \arg min_{β} \frac{1}{2 n} ‖ {\hat{β}}_{O L S} - β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ (algebra) & = \arg min_{β} \frac{1}{2} ‖ {\hat{β}}_{O L S} - β ‖_{2}^{2} + n λ ‖ β ‖_{1} \\ (defn.) & = {p r o x}_{n λ ‖ \cdot ‖_{1}} ({\hat{β}}_{O L S}) \\ (takes some work) & = S_{n λ} ({\hat{β}}_{O L S}), \end{aligned}

$\begin{align*} \hat\beta_\lambda & = \arg\min_{\beta} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \tag{defn.} \\ & = \arg\min_\beta \frac{1}{2n} \|X \hat\beta_{OLS} - X \beta\|_2^2 + \lambda \|\beta\|_1 \tag{OLS is projection} \\ & = \arg\min_\beta \frac{1}{2n} \|\hat\beta_{OLS} - \beta\|_2^2 + \lambda \|\beta\|_1 \tag{$X^TX=I$} \\ & = \arg\min_\beta \frac{1}{2} \|\hat\beta_{OLS} - \beta\|_2^2 + n \lambda \|\beta\|_1 \tag{algebra} \\ & = \mathrm{prox}_{n \lambda \|\cdot\|_1} \left( \hat\beta_{OLS} \right) \tag{defn.} \\ & = S_{n \lambda} \left( \hat\beta_{OLS} \right) \tag{takes some work}, \end{align*}$ \ end {align *} где является проксимальным оператором мягких порогов функции и на величину

{p r o x}_{f}

$\mathrm{prox}_f$

f

$f$

S_{α}

$S_{\alpha}$

α

$\alpha$ ,

Это вывод, который пропускает подробный вывод проксимального оператора, который разрабатывает Кардинал, но, я надеюсь, проясняет основные шаги, которые делают возможной закрытую форму.

— user795305
источник