Если интерес представляет только прогноз, зачем использовать лассо над хребтом?


37

На странице 223 «Введение в статистическое обучение» авторы суммируют различия между регрессией гребня и лассо. Они предоставляют пример (рис. 6.9) того, когда «лассо имеет тенденцию превосходить регрессию гребня с точки зрения смещения, дисперсии и MSE».

Я понимаю, почему лассо может быть желательным: это приводит к разреженным решениям, поскольку сокращает многие коэффициенты до 0, что приводит к простым и интерпретируемым моделям. Но я не понимаю, как это может превзойти хребет, когда интерес представляют только прогнозы (то есть, как в данном примере MSE существенно ниже?).

В случае риджа, если многие предикторы почти не влияют на ответ (при том, что несколько предикторов оказывают большое влияние), их коэффициенты не будут просто сокращены до небольшого числа, очень близкого к нулю ... что приведет к чему-то очень похожему на лассо ? Так почему же у финальной модели производительность хуже, чем у лассо?



2
Я видел эту ссылку. Это не отвечает на вопрос.
Оливер Анжелил

Ответы:


34

Вы правы, чтобы задать этот вопрос. В целом, когда используется правильное правило оценки точности (например, среднеквадратическая ошибка прогноза), регрессия гребня будет превосходить лассо. Лассо тратит часть информации, пытаясь найти «правильных» предикторов, и во многих случаях это даже не здорово. Относительная производительность двух будет зависеть от распределения истинных коэффициентов регрессии. Если у вас есть небольшая доля ненулевых коэффициентов на самом деле, лассо может работать лучше. Лично я использую ридж почти все время, когда заинтересован в точности прогнозирования.


1
Есть ли случаи, когда вы не заинтересованы в точности прогнозирования?
Кошка Морж

1
@WalrustheCat Некоторые люди, обычно стерео из Стэнфорда, выступают за использование Лассо в многомерном выборе переменных. Предположительно, Фрэнк имел в виду «... в первую очередь заинтересован в точности прогнозирования», а не просто «... заинтересован в точности прогнозирования», хотя, на мой взгляд, разница между этими двумя понятиями является педантичной, чтобы быть полезной.
Джон Мэдден

Я никогда не понимал подход «регуляризация как уменьшение размерности». Вы можете выполнить уменьшение размерности либо с помощью лассо-регуляризации, либо нет, а затем использовать лучшую функцию регуляризации для своей исходной задачи с результирующими функциями. Но я отвлекся.
Кошка Морж

9
Из «В общем [...] регрессия гребня превосходит лассо» и «Если у вас есть небольшая доля ненулевых коэффициентов в истинности, лассо может работать лучше», то, по-видимому, следует, что в большинстве задач прогнозирования основная истина не редка. Это то, что вы говорите?
говорит амеба: восстанови Монику

5
Да, в основном. Если вы знаете основную истину «в распределении», вы бы создали байесовское предварительное распределение для неизвестных коэффициентов регрессии, которое дало бы вам оптимальные результаты. И даже когда, скажем, 3/4 предикторов имеют ровно нулевой эффект, гребень конкурирует с лассо.
Фрэнк Харрелл

11

Я думаю, что конкретная схема примера, на который вы ссылаетесь, является ключом к пониманию того, почему лассо превосходит ридж: только 2 из 45 предикторов действительно актуальны.

Это граничит с патологическим случаем: лассо, специально предназначенное для облегчения сокращения до нуля, работает точно так, как задумано, в то время как Риджу придется иметь дело с большим количеством бесполезных терминов (даже если их эффект сводится к нулю, он все еще ненулевой эффект).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.