Вот геометрическая иллюстрация того, что происходит с отрицательным гребнем.
Я рассмотрю оценки вида возникающие из функции потерьВот довольно стандартная иллюстрация того, что происходит в двумерном случае с . Нулевая лямбда соответствует решению OLS, бесконечная лямбда сокращает предполагаемую бета до нуля:
β^λ=(X⊤X+λI)−1X⊤y
Lλ=∥y−Xβ∥2+λ∥β∥2.
λ∈[0,∞)
Теперь рассмотрим , что происходит , когда , где является наибольшим сингулярным значением . Для очень больших отрицательных лямбд, конечно, близка к нулю. Когда лямбда приближается к , член получает единичное значение, приближающееся к нулю, что означает, что обратное значение имеет одно единственное значение, идущее в минус бесконечность. Это единственное значение соответствует первому главному компоненту , поэтому в пределе можно получить указывающий в направлении PC1, но абсолютное значение растет до бесконечности.λ∈(−∞,−s2max)smaxXβ^λ−s2max(X⊤X+λI)Xβ^λ
Что действительно приятно, так это то, что его можно нарисовать на одной фигуре одинаковым образом: бета-версии задаются точками, где круги касаются эллипсов изнутри :
Когда , применяется аналогичная логика, позволяющая продолжить путь гребня на другой стороне оценки OLS. Теперь круги касаются эллипсов снаружи. В предел, бета приближаются к направлению PC2 (но это происходит далеко за пределами этого эскиза):λ∈(−s2min,0]
Диапазон является чем-то вроде энергетической щели : оценки там не живут на одной кривой.(−s2max,−s2min)
ОБНОВЛЕНИЕ: В комментариях @MartinL объясняет, что для потеря не имеет минимума, но имеет максимум. И этот максимум дает . Вот почему та же геометрическая конструкция с касанием круга / эллипса продолжает работать: мы все еще ищем точки с нулевым градиентом. Когда , потеря действительно имеет минимум и определяется как , точно так же, как в обычной дело.λ<−s2maxLλβ^λ−s2min<λ≤0Lλβ^λλ>0
Но когда , потеря не имеет ни максимума, ни минимума; будет соответствовать седловой точке. Это объясняет «энергетический разрыв».−s2max<λ<−s2minLλβ^λ
естественным образом вытекает из определенного ограниченного конька регрессии, см Предел «блок-дисперсионного» Хребет регрессионной оценки при . Это связано с тем, что в литературе по хемометрии известно как «континуальная регрессия», см. Мой ответ в связанной ветке.λ∈(−∞,−s2max)λ→∞
можно рассматривать точно так же, как : функция потерь остается тем же самым и оценщик гребень обеспечивает его минимум.λ∈(−s2min,0]λ>0