Геометрическая интерпретация
Оценка, описанная в вопросе, является множителем Лагранжа, эквивалентным следующей задаче оптимизации:
minimize f(β) subject to g(β)≤t and h(β)=1
f(β)g(β)h(β)=∥y−Xβ∥2=∥β∥2=∥Xβ∥2
что геометрически можно рассматривать как нахождение наименьшего эллипсоида который касается пересечения сферы и эллипсоидаf(β)=RSS g(β)=th(β)=1
Сравнение со стандартным видом регрессии гребня
С точки зрения геометрического представления это изменяет старый вид (для стандартной регрессии гребня) точки, где сфероид (ошибки) и сфера ( ) касаются∥β∥2=t . В новом представлении, где мы ищем точку, где сфероид (ошибки) касается кривой (норма бета ограничена )∥Xβ∥2=1 . Одна сфера (синяя на левом изображении) превращается в фигуру меньшего размера из-за пересечения с ограничением .∥Xβ∥=1
В двумерном случае это просто для просмотра.
Когда мы настраиваем параметр мы меняем относительную длину синих / красных сфер или относительные размеры и (В теории множителей Лагранжа, вероятно, есть аккуратный способ формально и точно описать , что это означает , что для каждого как функции , или обратных, является монотонной функцией. Но я думаю , что вы можете увидеть интуитивно , что сумма квадратов невязок только возрастает , когда мы уменьшаем .)tf(β)g(β) tλ||β||
Решение для такое, как вы указали на линии между 0 иβλλ=0βLS
Решение для (действительно, как вы прокомментировали) в загрузках первого основного компонента. Это та точка, где является наименьшим для . Это точка, где окружность касается эллипса в одной точке.βλλ→∞∥β∥2∥βX∥2=1∥β∥2=t|Xβ|=1
В этом двумерном виде ребра пересечения сферы и сфероида являются точками. В нескольких измерениях это будут кривые∥β∥2=t∥βX∥2=1
(Сначала я представил, что эти кривые будут эллипсами, но они более сложные. Вы можете представить, что эллипсоид пересекается с шаром как некоторые вид эллипсоида, но с ребрами, которые не являются простыми эллипсами)∥Xβ∥2=1∥β∥2≤t
Относительно лимитаλ→∞
Сначала (предыдущие правки) я написал, что будет некоторое ограничение выше которого все решения одинаковы (и они находятся в точке ). Но это не тот случайλlimβ∗∞
Рассмотрим оптимизацию как алгоритм LARS или градиентный спуск. Если для какой-либо точки существует направление, в котором мы можем изменить так, чтобы штрафной член увеличивался меньше, чем член SSR то вы не находитесь в минимуме ,ββ|β|2|y−Xβ|2
- В обычной регрессии гребня у вас нулевой наклон (во всех направлениях) для в точке . Таким образом, для всех конечных решение не может быть (поскольку можно сделать бесконечно малый шаг, чтобы уменьшить сумму квадратов невязок без увеличения штрафа).|β|2β=0λβ=0
- Для LASSO это не то же самое, поскольку: штраф равен (поэтому он не является квадратичным с нулевым наклоном). Из-за этого LASSO будет иметь некоторое предельное значение выше которого все решения равны нулю, поскольку штрафной член (умноженный на ) будет увеличиваться больше, чем уменьшается остаточная сумма квадратов.|β|1λlimλ
- Для ограниченного гребня вы получаете то же самое, что и обычная регрессия гребня. Если вы измените начиная с , то это изменение будет перпендикулярна к ( перпендикулярно к поверхности эллипса ) и можно изменить на бесконечно малый шаг, не изменяя штрафной член, но уменьшая сумму квадратов невязок. Таким образом, для любой конечной точка не может быть решением.ββ∗∞ββ∗∞|Xβ|=1βλβ∗∞
Дополнительные примечания относительно лимитаλ→∞
Обычный предел регрессии гребня для до бесконечности соответствует другой точке в регрессии ограниченного гребня. Этот «старый» предел соответствует точке, где равен -1. Тогда производная функции Лагранжа в нормированной задачеλμ
2(1+μ)XTXβ+2XTy+2λβ
соответствует решению для производной функции Лагранжа в стандартной задаче
2XTXβ′+2XTy+2λ(1+μ)β′with β′=(1+μ)β
Автор StackExchangeStrike