Когда я должен использовать лассо против риджа?


167

Скажем, я хочу оценить большое количество параметров, и я хочу наказать некоторые из них, потому что я считаю, что они должны иметь небольшой эффект по сравнению с другими. Как мне решить, какую схему наказания использовать? Когда регрессия гребня более уместна? Когда я должен использовать лассо?


«Скажем, я хочу оценить большое количество параметров», это можно было бы уточнить, что такое структура? Я предполагаю, что это линейная регрессия?
Робин Жирар

2
Подобный вопрос только что был задан в отношении метаоптимизации (имея в виду, что l1 = LASSO и l2 = ridge): metaoptimize.com/qa/questions/5205/…
Gael Varoquaux

Вы говорите «лассо против хребта», как будто они единственные два варианта - как насчет обобщенного двойного парето, подковы, бма, бриджа, среди прочего?
вероятностная

Ответы:


106

Имейте в виду, что регрессия гребня не может обнулять коэффициенты; Таким образом, вы либо включаете все коэффициенты в модель, либо ни один из них. Напротив, LASSO выполняет как сжатие параметров, так и выбор переменных автоматически. Если некоторые из ваших ковариат сильно коррелируют, вы можете захотеть взглянуть на Elastic Net [3] вместо LASSO.

Я бы лично рекомендовал использовать неотрицательный Гаротт (NNG) [1], поскольку он соответствует с точки зрения оценки и выбора переменных [2]. В отличие от LASSO и регрессии гребня, NNG требует первоначальной оценки, которая затем сокращается до начала координат. В первоначальной статье Брейман рекомендует решение для наименьших квадратов для начальной оценки (однако вы можете начать поиск с решения для регрессии гребня и использовать что-то вроде GCV для выбора параметра штрафа).

Что касается доступного программного обеспечения, я реализовал оригинальный NNG в MATLAB (на основе оригинального кода Бреймана FORTRAN). Вы можете скачать его с:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

Кстати, если вы предпочитаете байесовское решение, проверьте [4,5].

Рекомендации:

[1] Брейман Л. Лучшая регрессия подмножеств с использованием неотрицательных Garrote Technometrics, 1995, 37, 373-384.

[2] Юань М. и Лин Ю. О журнале оценки неотрицательных оценок Гаррота Королевского статистического общества (Серия B), 2007, 69, 143-161.

[3] Zou, H. & Hastie, T. Регуляризация и выбор переменных с помощью эластичной сети. Журнал Королевского статистического общества (Серия B), 2005, 67, 301-320.

[4] Парк Т. и Казелла Дж. Байесовский журнал Лассо Американской статистической ассоциации, 2008, 103, 681-686.

[5] Kyung, M .; Джилл, Дж .; Ghosh, M. & Casella, G. Исправленная регрессия, стандартные ошибки и байесовский анализ Лассоса Байесов, 2010, 5, 369-412


2
Не могли бы вы быть более конкретным на ридж против лассо? Является ли автоматический выбор переменных единственной причиной, чтобы предпочесть лассо?
Чогг

42

Ридж или лассо являются формами регуляризованных линейных регрессий. Регуляризацию также можно интерпретировать как предшествующую в методе апостериорной оценки. Согласно этой интерпретации, гребень и лассо делают разные предположения о классе линейного преобразования, которое они выводят, чтобы связать входные и выходные данные. В гряде коэффициенты линейного преобразования распределены нормально, а в лассо - распределения Лапласа. На самом деле, это облегчает для коэффициентов быть равными нулю и, следовательно, легче исключить некоторые из ваших входных переменных, так как они не влияют на результат.

Есть также некоторые практические соображения. Это более простое в реализации и более быстрое вычисление, что может иметь значение в зависимости от типа имеющихся у вас данных.

Если вы оба реализовали, используйте подмножества ваших данных, чтобы найти гребень и лассо и сравнить, насколько хорошо они работают с опущенными данными. Ошибки должны дать вам представление о том, что использовать.


8
Я не понимаю - как бы вы узнали, если ваши коэффициенты Лапласа или нормально распределены?
Ихаданни

1
Почему регрессия Риджа быстрее вычисляется?
Арчи

4
@Hbar: «Регуляризацию также можно интерпретировать как предыдущую в методе максимального апостериорного оценивания.»: Не могли бы вы объяснить эту часть более подробно с помощью математических символов или, по крайней мере, дать ссылку? Спасибо!
Математика

2
@ihadanny Вы, вероятно, не знаете, и в этом суть. Вы можете только решить, какой из них оставить апостериори .
Firebug

30

Как правило, когда у вас есть много мелких / средних эффектов, вы должны идти с гребнем. Если у вас есть только несколько переменных со средним / большим эффектом, переходите к лассо. Асти, Тибширани, Фридман


4
Но когда у вас есть несколько переменных, вы можете захотеть сохранить их все в своих моделях, если они имеют средние / большие эффекты, что не будет иметь место в случае лассо, поскольку это может удалить одну из них. Можете ли вы объяснить это подробно? Я чувствую, когда у вас много переменных, мы используем Лассо, чтобы удалить ненужные переменные, а не ридж.
адитья бхандари
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.