Хребет & ЛАССО норм

12

Этот пост следует за этим: Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

Вот мой вопрос:

Насколько я знаю, в регуляризации хребта используется (евклидово расстояние). Но почему мы используем квадрат этой нормы? (прямое применение приведет к получению квадратного корня от суммы квадрата бета). $\ell_2$ $\ell_2$

Для сравнения, мы не делаем этого для LASSO, который использует для регуляризации. Но здесь это «реальная» норма (просто сумма квадрата абсолютных значений бета, а не квадрат этой суммы). $\ell_1$ $\ell_1$

Может кто-нибудь помочь мне уточнить?

lasso regularization ridge-regression

— Plotz
источник

2

Термин штраф в регрессии гребня является квадратом нормы L2. Смотрите эти слайды , написанные Tibshirani в качестве примера (слайд 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Смотрите также здесь en.wikipedia.org/wiki/Tikhonov_regularization

— Boscovich

Небольшое уточнение, это слайды от Райана Тибширани, а не Роба.

— Эллис Валентинер

хорошо, большое спасибо за разъяснения. Но я не понимаю, почему квадрат для L2, а не для L1. Разве у нас нет общих формул для любого вида регуляризации?

— PLOTZ

@ user12202013: спасибо, что указали на это. Я этого не заметил.

— Boscovich

9

Ридж и Лассо - два способа регуляризации и регрессии. Лассо регрессия накладывает ограничение на сумму абсолютных коэффициентов:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

Хребетная регрессия накладывает ограничение на сумму квадратов разностей:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Вы предложили ввести еще одну норму, евклидову длину коэффициентов:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

Разница между регрессией Риджа и евклидовой длиной составляет квадрат. Это меняет интерпретацию регуляризации. В то время как как гребень, так и евклидова длина регуляризуются в направлении нуля, регрессия гребня также отличается величиной регуляризации. Коэффициенты, которые находятся дальше от нуля, сильнее притягиваются к нулю. Это делает его более стабильным около нуля, потому что регуляризация постепенно меняется около нуля. Это не относится к евклидовой длине или к регрессии Лассо.

— Pieter
источник

7

Есть много штрафных подходов, которые теперь имеют все виды различных штрафных функций (ридж, лассо, MCP, SCAD). Вопрос о том, почему одна из конкретных форм заключается в основном «какие преимущества / недостатки дает такое наказание?».

Интересующие свойства могут быть:

1) почти непредвзятые оценщики (обратите внимание, что все штрафованные оценщики будут смещены)

2) Разреженность (обратите внимание, что регрессия гребня не дает разреженных результатов, т.е. она не уменьшает коэффициенты до нуля)

3) Непрерывность (чтобы избежать нестабильности в прогнозировании модели)

Это всего лишь несколько свойств, которые могут быть заинтересованы в штрафной функции.

$||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

— bdeonovic
источник

хорошо спасибо. Но почему квадрат для L2, а не для L1? Разве у нас нет общих формул для любого вида регуляризации? Это меня озадачивает ...

— PLOTZ

@PLOTZ Я немного добавил к своему ответу.

— bdeonovic

Большое спасибо, Бенджамин! Наверняка теперь стало понятнее! Я не получил эту теоретическую цель до вашего ответа. Большое спасибо за ваш ответ.

— PLOTZ

@ Бенджамин: в пункте № 1 вы действительно имели в виду «( не все оштрафованные оценщики будут объективными)»? Хребет регрессии - просто чтобы назвать один - является предвзятым.

— Boscovich

упс, да, спасибо, что поймали это! Я думаю, что на самом деле все оштрафованные оценщики будут предвзятыми.

— bdeonovic

5

$\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ $p > 0$

Затем регрессия Риджа использует , а Lasso но можно использовать другие значения . $p=2$ $p=1$ $p$

Например, у вас есть разреженное решение для всех значений , и чем меньше значение тем разреженное решение. $p \leq 1$ $p$

Для значений ваша цель не является более гладкой, поэтому оптимизация усложняется; при цель невыпуклая, поэтому оптимизация еще сложнее ... $p \leq 1$ $p<1$

— Тонио Боннеф
источник

2

Я полагаю, что здесь есть еще более простой ответ, хотя на вопросы «почему» всегда трудно ответить, когда разрабатывается методика. Квадрат нормы используется так, чтобы член регуляризации был легко дифференцируемым. Хребетная регрессия минимизирует: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Также можно написать:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Теперь это можно легко дифференцировать по отношению к чтобы получить решение в закрытой форме: $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

из которого можно сделать все виды выводов.

— Тим Атрейдес
источник

1

Рассмотрим еще одно важное различие между использованием квадрата нормы (т.е. регрессии гребня) и неизмененной нормы : производная от нормы для , , в определяется как и, следовательно, не дифференцируемо в нулевом векторе. То есть, хотя норма не делает выбор отдельных переменных, таких как лассо, теоретически она может дать в качестве решения для максимальной наказуемой вероятности. квадрат $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ норма в штрафе, штраф типа гребня везде дифференцируем и никогда не может привести к такому решению.

Это поведение именно (по моему пониманию), почему группа лассо (Юань и Лин) и разреженная группа лассо (Саймон и др.) И т. Д. норму (на заранее подмножествах коэффициентов) вместо квадрата из нормы. $\ell_2$ $\ell_2$

— psboonstra
источник