Модификация Лассо для LARS

12

Я пытаюсь понять, как алгоритм Ларса может быть изменен для генерации лассо. Хотя я понимаю LARS, я не могу видеть модификацию Лассо из статьи Tibshirani et al. В частности, я не понимаю, почему условие знака в том, что знак ненулевой координаты должен совпадать со знаком текущей корреляции. Может кто-нибудь, пожалуйста, помогите мне с этим. Я предполагаю, что ищу математическое доказательство, используя условие KKT для исходной задачи нормы L-1, то есть лассо. Спасибо большое!

lasso

— newbiequant
источник

Вы ссылаетесь на stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf Эфрона и др. ? Это доказывается в лемме 8 раздела 5. Или я неправильно понимаю ваш вопрос?

— Питер Эллис

1

Я также не уверен в этом вопросе, но на самом деле, Лассо является упрощением Ларса: для Лассо вы ищете только положительные корреляции между текущим остатком и оставшимися базовыми функциями, поскольку только положительные корреляции приводят к положительным (~ неотрицательные) коэффициенты.

— г-н Уайт

2

Пусть (размер ) обозначает набор стандартных входов, (размера ) с центром ответов, ; (размером ) весовые коэффициенты регрессии и -норм коэффициента Недостатки. $X$ $n\times p$ $y$ $n \times 1$ $\beta$ $p \times 1$ $\lambda > 0$ $l_1$

\begin{aligned} β^{*} & = {argmin}_{β} L (β, λ) \\ L (β, λ) & = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \end{aligned}

$\begin{align} \beta^* &= \text{argmin}_{\beta}\ L(\beta,\lambda) \\ L(\beta,\lambda) &= \Vert y-X\beta \Vert_2^2 + \lambda \Vert \beta \Vert_1 \end{align}$

Решение этого для всех значений дает так называемый путь регуляризации LASSO . $\lambda > 0$ $\beta^*(\lambda)$

Для фиксированного значения коэффициента штрафования (т.е. фиксированное число активных предикторов = фиксированный шаг алгоритма LARS) можно показать, что удовлетворяет (просто запишите условие стационарности KKT, как в этом ответь ) $\lambda^*$ $\beta^*$

λ^{*} = 2 sign (β_{a}^{*}) X_{a}^{T} (y - X β^{*}), \forall a \in A

$\lambda^* = 2 \ \text{sign}(\beta_a^*) X_a^T (y - X \beta^*),\ \ \ \forall a \in A$

с представляет набор активных предикторов. $A$

Поскольку должен быть положительным (это коэффициент штрафования), ясно, что знак (вес любого ненулевого, следовательно, активного предиктора) должен быть таким же, как у т.е. корреляция с текущим остатком регрессии. $\lambda^*$ $\beta_a^*$ $X_a^T (y - X\beta^*) = X_{a}^T r$

— Quantuple
источник

1

@ Mr._White дал интуитивно понятное объяснение основного различия между LARS и Лассо; Единственное, что я хотел бы добавить, это то, что лассо (своего рода) похоже на подход обратного выбора, выбивая термин на каждом шаге, пока существует термин, для которого существует такая («нормализованная» по ) корреляция. LARS держит там все - в основном выполняет лассо в каждом возможном порядке. Это означает, что в лассо каждая итерация зависит от того, какие термины уже удалены. $X \times X$

Реализация Effron хорошо иллюстрирует различия: lars.R в исходном pkg для lars . Обратите внимание на шаг обновления матриц matrix и начиная со строки 180, и удаление терминов, для которых . Я могу представить себе некоторые странные ситуации, возникающие в пространствах где термины не сбалансированы ( и очень коррелированы, но не с другими, с но не с другими и т. Д.). Порядок выбора может быть весьма предвзятым. $X \times X$ $\zeta$ $\zeta_{min} < \zeta_{current}$ $A$ $x_1$ $x_2$ $x_2$ $x_3$

— egbutter
источник