+1 к иллюстрации Glen_b и комментариям статистики по оценке хребта. Я просто хотел бы добавить чисто математическую (линейную алгебру) pov к регрессии Риджа, которая отвечает на вопросы ОП) 1) и 2).
Прежде всего отметим, что - это симметричная положительная полуопределенная матрица - кратная выборочная ковариационная матрица. Следовательно, он имеет собственное разложениеp × p nX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Теперь, поскольку матричная инверсия соответствует инверсии собственных значений, для оценки OLS требуется (обратите внимание, что ). Очевидно, это работает, только если все собственные значения строго больше нуля, . Для это невозможно; для это в целом верно - это то, где мы обычно имеем дело с мультиколлинеарностью .V ' = V - 1 д я > 0 р » п п » р(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Как статистики мы также хотим знать, как небольшие возмущения в данных изменяют оценки. Ясно, что небольшое изменение в любом приводит к огромному изменению в если очень мало.d i 1 / d i d iXdi1/didi
Итак, что делает регрессия Риджа, так это сдвигает все собственные значения дальше от нуля как
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
который теперь имеет собственные значения . Вот почему выбор положительного параметра штрафа делает матрицу обратимой - даже в случае . Для регрессии Риджа небольшое изменение в данных больше не оказывает крайне нестабильного влияния на матричную инверсию.
di+λ≥λ≥0p≫nX
Числовая стабильность связана с усадкой до нуля, так как они оба являются следствием добавления положительной постоянной к собственным значениям: это делает ее более устойчивой, потому что небольшое возмущение в не слишком сильно меняет обратное; он сжимает его близко к поскольку теперь член умножается на что ближе к нулю, чем решение OLS с обратными собственными значениями .0 V - 1 X ′ y 1 / ( d i + λ ) 1 / dX0V−1X′y1/(di+λ)1/d