На странице 223 «Введение в статистическое обучение» авторы суммируют различия между регрессией гребня и лассо. Они предоставляют пример (рис. 6.9) того, когда «лассо имеет тенденцию превосходить регрессию гребня с точки зрения смещения, дисперсии и MSE».
Я понимаю, почему лассо может быть желательным: это приводит к разреженным решениям, поскольку сокращает многие коэффициенты до 0, что приводит к простым и интерпретируемым моделям. Но я не понимаю, как это может превзойти хребет, когда интерес представляют только прогнозы (то есть, как в данном примере MSE существенно ниже?).
В случае риджа, если многие предикторы почти не влияют на ответ (при том, что несколько предикторов оказывают большое влияние), их коэффициенты не будут просто сокращены до небольшого числа, очень близкого к нулю ... что приведет к чему-то очень похожему на лассо ? Так почему же у финальной модели производительность хуже, чем у лассо?