Это касается дисперсии
OLS обеспечивает то, что называется лучшим линейным объективным оценщиком (СИНИЙ) . Это означает, что если вы возьмете любой другой объективный оценщик, он будет иметь более высокую дисперсию, чем решение OLS. Так с какой стати мы должны рассматривать что-то еще, кроме этого?
Теперь трюк с регуляризацией, такой как лассо или гребень, заключается в добавлении некоторого смещения по очереди, чтобы попытаться уменьшить дисперсию. Потому что , когда вы оцениваете свои ошибки предсказания, это сочетание трех вещей :
E [ ( у- ф^( х ) )2] = Смещение [ f^( х ) ) ]2+ Вар [ ф^( х ) ) ] + σ2
Последняя часть - это неустранимая ошибка, поэтому мы не можем ее контролировать. При использовании решения OLS термин смещения равен нулю. Но может быть так, что второй член большой. Это может быть хорошей идеей (
если мы хотим хорошие прогнозы ), чтобы добавить некоторый уклон и, надеюсь, уменьшить дисперсию.
Так что же это ? Это дисперсия, введенная в оценки параметров вашей модели. Линейная модель имеет вид
y = X β + ϵ ,Var[f^(x))] Для того,
чтобы получить решение МНК мы решить проблему минимизации
Arg мин & beta ; | | y - X β | | 2
Это обеспечивает решение
& beta ; МНК = ( Х Т Х ) - 1 х Т у
задачи минимизации конька регрессии аналогично:
Arg мин & beta ; | | y - X β | |
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
Теперь решение становится
β - Ридж = ( X T X + λ I ) - 1 X T у
Таким образоммы добавляем этот
Л I (называемый гребень) на диагонали матрицы, мы инвертировать. Эффект, который это оказывает на матрицу
X T X, состоит в том, что он «
тянет» определитель матрицы от нуля. Таким образом, когда вы инвертируете его, вы не получите огромных собственных значений. Но это приводит к еще одному интересному факту, а именно: дисперсия оценок параметров становится ниже.
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
λIXTX
Я не уверен, что смогу дать более четкий ответ, чем этот. Все это сводится к ковариационной матрице для параметров в модели и величине значений в этой ковариационной матрице.
В качестве примера я взял регрессию гребня, потому что это гораздо легче лечить. Лассо намного сложнее, и по- прежнему ведутся активные исследования на эту тему.
На этих слайдах представлена дополнительная информация, а в этом блоге также есть соответствующая информация.
РЕДАКТИРОВАТЬ: Что я имею в виду, что при добавлении гребня детерминант " оттягивается " от нуля?
XTX
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX -(t-λ)I) = 0
( т - λ )TяTя+ λλ
Вот некоторый код R, чтобы проиллюстрировать это:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Который дает результаты:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Таким образом, все собственные значения сдвигаются ровно на 3.
В общем случае это можно доказать, используя теорему Гершгорина о окружности . Там центры окружностей, содержащие собственные значения, являются диагональными элементами. Вы всегда можете добавить «достаточно» к диагональному элементу, чтобы сделать все круги в положительной реальной полуплоскости. Этот результат является более общим и не нужен для этого.