Почему мой вывод лассо-решения замкнутой формы неверен?

Проблема лассо имеет решение в закрытой форме: если имеет ортонормированные столбцы. Это было показано в этой теме: Вывод лассо раствора в закрытой форме .

β^{lasso} = \underset{β}{argmin} ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1$

β_{j}^{lasso} = s g n (β_{j}^{LS}) (| β_{j}^{LS} | - α)^{+}

$\beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+$

X

$X$

Однако я не понимаю, почему вообще нет решения в закрытой форме. Используя субдифференциалы, я получил следующее.

( $X$ является матрицей $n \times p$ )

f (β) = ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1$

= \sum_{i = 1}^{n} (y_{i} - X_{i} β)^{2} + α \sum_{j = 1}^{p} | β_{j} |

$=\sum_{i=1}^n (y_i-X_i\beta)^2 + \alpha \sum_{j=1}^p |\beta_j|$ (

X_{i}

$X_i$ - это i-я строка в

X

$X$ )

= \sum_{i = 1}^{n} y_{i}^{2} - 2 \sum_{i = 1}^{n} y_{i} X_{i} β + \sum_{i = 1}^{n} β^{T} X_{i}^{T} X_{i} β + α \sum_{j = 1}^{p} | β_{j} |

$= \sum_{i=1}^n y_i^2 -2\sum_{i=1}^n y_i X_i \beta + \sum_{i=1}^n \beta^T X_i^T X_i \beta + \alpha \sum_{j=1}^p |\beta_j|$

\Rightarrow \frac{\partial f}{\partial β_{j}} = - 2 \sum_{i = 1}^{n} y_{i} X_{i j} + 2 \sum_{i = 1}^{n} X_{i j}^{2} β_{j} + \frac{\partial}{\partial β_{j}} (α | β_{j} |)

$\Rightarrow \frac{\partial f}{\partial \beta_j}= -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j + \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

= {\begin{cases} - 2 \sum_{i = 1}^{n} y_{i} X_{i j} + 2 \sum_{i = 1}^{n} X_{i j}^{2} β_{j} + α for β_{j} > 0 \\ - 2 \sum_{i = 1}^{n} y_{i} X_{i j} + 2 \sum_{i = 1}^{n} X_{i j}^{2} β_{j} - α for β_{j} < 0 \\ [- 2 \sum_{i = 1}^{n} y_{i} X_{i j} - α, - 2 \sum_{i = 1}^{n} y_{i} X_{i j} + α] for β_{j} = 0 \end{cases}

$= \begin{cases} -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j + \alpha \text{ for } \beta_j > 0 \\ -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j - \alpha \text{ for } \beta_j < 0 \\ [-2\sum_{i=1}^ny_i X_{ij} - \alpha, -2\sum_{i=1}^ny_i X_{ij} + \alpha] \text{ for } \beta_j = 0 \end{cases}$ При

\frac{\partial f}{\partial β_{j}} = 0

$\frac{\partial f}{\partial \beta_j} = 0$ мы получаем

β_{j} = {\begin{cases} (2 (\sum_{i = 1}^{n} y_{i} X_{i j}) - α) / 2 \sum_{i = 1}^{n} X_{i j}^{2} & for \sum_{i = 1}^{n} y_{i} X_{i j} > α \\ (2 (\sum_{i = 1}^{n} y_{i} X_{i j}) + α) / 2 \sum_{i = 1}^{n} X_{i j}^{2} & for \sum_{i = 1}^{n} y_{i} X_{i j} < - α \\ 0 & for \sum_{i = 1}^{n} y_{i} X_{i j} \in [- α, α] \end{cases}

$\beta_j = \begin{cases} \left( 2(\sum_{i=1}^ny_i X_{ij}) - \alpha \right)/ 2\sum_{i=1}^n X_{ij}^2 &\text{for } \sum_{i=1}^ny_i X_{ij} > \alpha \\ \left( 2(\sum_{i=1}^ny_i X_{ij}) + \alpha \right)/ 2\sum_{i=1}^n X_{ij}^2 &\text{for } \sum_{i=1}^ny_i X_{ij} < -\alpha \\ 0 &\text{ for }\sum_{i=1}^ny_i X_{ij} \in [-\alpha, \alpha] \end{cases}$

Кто-нибудь видит, где я ошибся?

Ответ:

Если мы напишем задачу в терминах матриц, мы очень легко увидим, почему решение в замкнутой форме существует только в ортонормированном случае с $X^TX= I$ :

f (β) = ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$f(\beta)= \| y-X\beta\|^2_2 + \alpha \| \beta\|_1$

= y^{T} y - 2 β^{T} X^{T} y + β^{T} X^{T} X β + α ‖ β ‖_{1}

$= y^Ty -2\beta^TX^Ty + \beta^TX^TX\beta + \alpha \| \beta\|_1$

\Rightarrow \nabla f (β) = - 2 X^{T} y + 2 X^{T} X β + \nabla (α | β ‖_{1})

$\Rightarrow \nabla f(\beta)=-2X^Ty + 2X^TX\beta + \nabla(\alpha| \beta\|_1)$ (здесь я предпринял много шагов одновременно. Однако, до этого момента это полностью аналог получения решения наименьших квадратов. Таким образом, вы должны быть в состоянии найти пропущенные шаги там.)

\Rightarrow \frac{\partial f}{\partial β_{j}} = - 2 X_{j}^{T} y + 2 (X^{T} X)_{j} β + \frac{\partial}{\partial β_{j}} (α | β_{j} |)

$\Rightarrow \frac{\partial f}{\partial \beta_j}=-2X^T_{j} y + 2(X^TX)_j \beta + \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

С $\frac{\partial f}{\partial \beta_j} = 0$ мы получаем

2 (X^{T} X)_{j} β = 2 X_{j}^{T} y - \frac{\partial}{\partial β_{j}} (α | β_{j} |)

$2(X^TX)_j \beta =2X^T_{j} y - \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

\Leftrightarrow 2 (X^{T} X)_{j j} β_{j} = 2 X_{j}^{T} y - \frac{\partial}{\partial β_{j}} (α | β_{j} |) - 2 \sum_{i = 1, i \neq j}^{p} (X^{T} X)_{j i} β_{i}

$\Leftrightarrow 2(X^TX)_{jj} \beta_j = 2X^T_{j} y - \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|) - 2\sum_{i=1,i\neq j}^p(X^TX)_{ji}\beta_i$

Теперь мы можем видеть, что наше решение для одного зависит от всех остальных поэтому не ясно, как действовать дальше. Если ортонормирован, мы имеем поэтому в этом случае, безусловно, существует решение в замкнутой форме. $\beta_j$ $\beta_{i\neq j}$ $X$ $2(X^TX)_j \beta = 2(I)_j \beta = 2\beta_j$

Спасибо Гудмундуру Эйнарссону за его ответ, который я подробно изложил здесь. Надеюсь, на этот раз это правильно :-)

regression lasso regularization

— Norbert
источник

Добро пожаловать в CrossValidated и поздравляю с очень хорошим первым постом!

— С. Коласса - Восстановить Монику

Обычно это делается с использованием регрессии с наименьшим углом, вы можете найти статью здесь .

Извините за мою путаницу в начале, я собираюсь сделать еще одну попытку в этом.

Так что после расширения вашей функции вы получите $f(\beta)$

f (β) = \sum_{i = 1}^{n} y_{i}^{2} - 2 \sum_{i = 1}^{n} y_{i} X_{i} β + \sum_{i = 1}^{n} β^{T} X_{i}^{T} X_{i} β + α \sum_{j = 1}^{p} | β_{j} |

$f(\beta)=\sum_{i=1}^n y_i^2 -2\sum_{i=1}^n y_i X_i \beta + \sum_{i=1}^n \beta^T X_i^T X_i \beta + \alpha \sum_{j=1}^p |\beta_j|$

Затем вы вычисляете частную производную по . Меня интересует, как вы вычисляете частную производную последнего слагаемого перед 1-нормой, то есть квадратичного слагаемого. Давайте рассмотрим это дальше. У нас есть это: $\beta_j$

X_{i} β = β^{T} X_{i}^{T} = (β_{1} X_{i 1} + β_{2} X_{i 2} + \dots + β_{p} X_{i p})

$X_i\beta = \beta^T X_i^T = (\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots+ \beta_p X_{ip})$ Таким образом, вы можете существенно переписать свой квадратный термин как: Теперь мы можем использовать правило цепочки для вычисления производной этого wrt :

\sum_{i = 1}^{n} β^{T} X_{i}^{T} X_{i} β = \sum_{i = 1}^{n} (X_{i} β)^{2}

$\sum_{i=1}^n \beta^T X_i^T X_i \beta = \sum_{i=1}^n (X_i \beta)^2$

β_{j}

$\beta_j$

\frac{\partial}{\partial β_{j}} \sum_{i = 1}^{n} (X_{i} β)^{2} = \sum_{i = 1}^{n} \frac{\partial}{\partial β_{j}} (X_{i} β)^{2} = \sum_{i = 1}^{n} 2 (X_{i} β) X_{i j}

$\frac{\partial }{\partial \beta_j} \sum_{i=1}^n (X_i \beta)^2 = \sum_{i=1}^n \frac{\partial }{\partial \beta_j} (X_i \beta)^2 = \sum_{i=1}^n 2(X_i \beta)X_{ij}$

Так что теперь ваша задача не так легко упрощается, потому что у вас есть все коэффициенты присутствующие в каждом уравнении. $\beta$

Это не отвечает на ваш вопрос о том, почему не существует закрытого решения Лассо, я мог бы добавить кое-что позже.

— Gumeo
источник

Большое спасибо. Теперь я действительно понимаю, почему не существует решения в закрытой форме (см. Мое редактирование).

— Норберт

Милая! Отличная работа :)

— Gumeo