Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет.

Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров $\beta$ . Для Лассо ограничение $||\beta||_1 \le t$ , тогда как для гребня это $||\beta||_2 \le t$ , для некоторого $t$ .

Я видел изображение ромба и эллипса в книге, и у меня есть некоторая интуиция относительно того, почему Лассо может поразить углы ограниченной области, что подразумевает, что один из коэффициентов установлен в ноль. Однако моя интуиция довольно слабая, и я не убежден. Это должно быть легко увидеть, но я не знаю, почему это так.

Итак, я думаю, что я ищу математическое обоснование или интуитивное объяснение того, почему контуры остаточной суммы квадратов могут попасть в углы $||\beta||_1$ ограниченная область (тогда как эта ситуация маловероятна, если ограничение $||\beta||_2$ ).

— Чжи Чжао
источник

Все ответы ниже являются хорошими объяснениями. Но я выложил статью с визуальным представлением. Ниже приводится ссылка medium.com/@vamsi149/...

— solver149

Ответы:

$y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Предположим, что решение для наименьших квадратов равно некоторому , что эквивалентно предположению, что , и посмотрим, что произойдет, когда мы добавим штраф L1. С , , поэтому штрафной член равен . Производная целевой функции wrt имеет вид: $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

который, очевидно, имеет решение . $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

Очевидно, что увеличивая мы можем довести до нуля (при ). Однако, как только , увеличение не приведет к отрицательному результату, потому что, если писать произвольно, момент становится отрицательным, производная целевой функции изменяется на: $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

где изменение знака происходит из-за абсолютного значения природы штрафного термина; когда становится отрицательным, штрафной член становится равным , а взятие производной по приводит к . Это приводит к решению , которое явно несовместимо с (учитывая, что решение наименьших квадратов , что подразумевает и $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ). При увеличении от до происходит увеличение штрафа L1 И увеличение квадрата ошибки (по мере продвижения от решения наименьших квадратов) , поэтому мы не придерживаться . $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

Должно быть интуитивно понятно, что применяется та же логика с соответствующими изменениями знака для решения наименьших квадратов с . $\hat{\beta} < 0$

Однако с штрафом за наименьшие квадраты производная становится: $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

который, очевидно, имеет решение . Очевидно, что никакое увеличение приведет к нулю. Таким образом, штраф L2 не может выступать в качестве инструмента выбора переменной без некоторой легкой рекламы, такой как «установите оценку параметра равной нулю, если она меньше ». $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

Очевидно, что все может измениться при переходе к многомерным моделям, например, перемещение одной оценки параметра может заставить другой сменить знак, но общий принцип тот же: функция штрафа L2 не может привести вас к нулю, потому что, написав очень эвристически, это фактически добавляет к «знаменателю» выражения для , но функция штрафа L1 может, потому что это фактически добавляет к «числителю». $\hat{\beta}$

— jbowman
источник

Обеспечивает ли Лассо также выбор характеристик в случае нелинейных моделей, например, NN?

— Илья

Небольшой дополнительный вопрос: как может быть , если - вектор, а - скаляр, который мы можем варьировать, чтобы найти подгонку?

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

— Екатерина Кокатюхха

Я использовал одномерный пример, так что - скаляр. Если вы решаете многомерную задачу, то умножается на вектор единиц с длиной = размер или единичной матрицей соответствующего размера, в зависимости от того, какая проблема решается. Вы можете решить это, отметив, например, что L2-норма = , и сделав подстановки в приведенных выше формулах.

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

— jbowman

Можно ли было бы показать (математически?), Как знак лямбды переворачивается из-за абсолютной природы функции штрафа, поскольку я не могу следовать этому кусочку логики.

— user1420372

@ user1420372 - сделали; дайте мне знать, что вы думаете.

— jbowman

Предположим, у нас есть набор данных с y = 1 и x = [1/10 1/10] (одна точка данных, две особенности). Одним из решений является выбор одной из функций, а другой - взвешивание обеих функций. Т.е. мы можем выбрать w = [5 5] или w = [10 0].

Обратите внимание, что для нормы L1 оба имеют одинаковый штраф, но более распределенный вес имеет меньший штраф для нормы L2.

— blarg
источник

Я думаю, что уже есть отличные ответы, но только для того, чтобы добавить некоторую интуицию относительно геометрической интерпретации:

«Лассо выполняет сжатие , так что в ограничении есть« углы », которые в двух измерениях соответствуют алмазу. Если сумма квадратов« попадает »в один из этих углов, то коэффициент, соответствующий оси, уменьшается в ноль. $L1$

По мере увеличения многомерный ромб имеет все большее число углов, и поэтому весьма вероятно, что некоторые коэффициенты будут установлены равными нулю. Следовательно, лассо выполняет усадку и (эффективно) выбор поднабора. $p$

В отличие от выбора подмножества, ребро выполняет мягкую настройку порога: при изменении параметра сглаживания траектория выборки оценок непрерывно перемещается в ноль ».

Источник: https://onlinecourses.science.psu.edu/stat857/book/export/html/137.

Эффект можно хорошо визуализировать, когда цветные линии - это пути коэффициентов регрессии, сужающиеся к нулю.

«Хребетная регрессия сжимает все коэффициенты регрессии до нуля; лассо стремится дать набор нулевых коэффициентов регрессии и приводит к разреженному решению».

Источник: https://onlinecourses.science.psu.edu/stat857/node/158.

— vonjd
источник