Ридж, лассо и эластичная сетка

33

Как соотносятся методы регуляризации риджа, LASSO и эластикета? Каковы их соответствующие преимущества и недостатки? Любая хорошая техническая статья, или примечания лекции были бы оценены также.

— user3269
источник

39

В книге «Элементы статистического обучения» Hastie et al. обеспечить очень глубокое и тщательное сравнение этих методов усадки. Книга доступна онлайн ( pdf ). Сравнение сделано в разделе 3.4.3, стр. 69.

Основное различие между Лассо и Риджем - это штрафной срок, который они используют. Ридж использует штрафной термин который ограничивает размер вектора коэффициентов. Лассо использует штраф который накладывает разреженность между коэффициентами и, таким образом, делает подобранную модель более интерпретируемой. Elasticnet вводится как компромисс между этими двумя методами и имеет штраф, который представляет собой сочетание норм и . $L_2$ $L_1$ $L_1$ $L_2$

— MMM
источник

3

Это прекрасный справочник.

— bdeonovic

4

также потому, что авторы являются изобретателями этих методов!

— Бакабург

1

Спасибо, что дали нам ссылку на эту прекрасную книгу

— Кристина

1

Я также настоятельно рекомендую раздел 18.4, страницы 661-668. Предоставляет больше информации о лассо против эластичной сети.

— Катя Хендлер,

1

Ссылка на книгу устарела по состоянию на 14 октября 2016 г.

— Ashe

22

Подводя итог, вот некоторые существенные различия между лассо, хребтом и эластичной сеткой:

Лассо делает редкий выбор , в то время как Ридж нет.
Если у вас есть сильно коррелированные переменные , регрессия Риджа сжимает два коэффициента друг к другу. Лассо несколько равнодушен и обычно выбирает одно над другим. В зависимости от контекста никто не знает, какая переменная выбрана. Elastic-net - это компромисс между двумя, который пытается сжать и сделать разреженный выбор одновременно.
Оценки Риджа безразличны к мультипликативному масштабированию данных. То есть, если обе переменные X и Y умножаются на константы, коэффициенты подгонки не изменяются для данного параметра . Однако для Лассо подгонка не зависит от масштабирования. Фактически, параметр должен быть увеличен умножителем, чтобы получить тот же результат. Это более сложно для эластичной сети. $\lambda$ $\lambda$
$\beta$

— balaks
источник

@ Балакс для второго пункта, который вы высказали, что означает «никто не знает, какая переменная выбрана»? Вы имели в виду, что LASSO безразличен, поэтому он выбирает случайным образом, поэтому мы не знаем, какой из них лучший?

— meTchaikovsky

4

Я настоятельно рекомендовал вам взглянуть на Введение в статистическую учебную книгу (Tibshirani et. Al, 2013).

Причина этого в том, что « Элементы статистического обучения» книга предназначена для лиц с повышенным уровнем подготовки в области математических наук. В предисловии к ISL авторы пишут:

Введение в статистических Изучения возникло из осознанной необходимости в более широкую и менее технической обработке этих тем. [...]

Введение в статистическое обучение подходит для продвинутых студентов или магистрантов в области статистики или смежных количественных областях или для лиц в других дисциплинах, которые хотят использовать инструменты статистического обучения для анализа своих данных.

— jeza
источник

1

Можете ли вы объяснить, почему вы нашли эту ссылку полезной?

— JM не статистика

1

Можно цитировать книгу, но, пожалуйста, пометьте ее как цитату, а не как собственный текст. В противном случае это плагиат. Я редактировал это для вас сейчас.

— говорит амеба: восстанови Монику

1

Вышеуказанные ответы очень понятны и информативны. Я хотел бы добавить один незначительный момент с точки зрения статистики. Возьмите регрессию гребня в качестве примера. Это расширение порядковой регрессии наименьших квадратов для решения проблем мультиколлинеарности, когда имеется много взаимосвязанных признаков. Если линейная регрессия

Y=Xb+e

Решение нормального уравнения для множественной линейной регрессии

b=inv(X.T*X)*X.T*Y

Решение нормального уравнения для регрессии гребня

b=inv(X.T*X+k*I)*X.T*Y.

Это смещенная оценка для b, и мы всегда можем найти штрафной член k, который сделает среднеквадратичную ошибку регрессии Риджа меньше, чем ошибка регрессии OLS.

Для LASSO и Elastic-Net мы не смогли найти такое аналитическое решение.

— Эмма
источник