Доказательство коэффициентов сжатия с помощью регрессии гребня посредством «спектрального разложения»

Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».

— jeza
источник

Вы заявили, что смущены, но каков ваш вопрос?

— whuber

Вопрос, кажется, требует демонстрации того, что Ридж-регрессия сжимает оценки коэффициентов до нуля, используя спектральное разложение. Спектральное разложение можно понимать как простое следствие разложения по сингулярным числам (SVD). Поэтому этот пост начинается с SVD. Это объясняет это в простых терминах, а затем иллюстрирует это важными приложениями. Затем он предоставляет запрашиваемую (алгебраическую) демонстрацию. (Алгебра, конечно, идентична геометрической демонстрации; она просто представлена на другом языке.)

Первоначальный источник этого ответа можно найти в моих заметках о регрессионном курсе . Эта версия исправляет некоторые незначительные ошибки.

Что такое СВД

Любая матрица с может быть записана как где $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

$U$ является матрицей . $n\times p$
- Столбцы имеют длину . $U$ $1$
- Столбцы взаимно ортогональны. $U$
- Они называются главными компонентами из . $X$
$V$ является матрицей . $p \times p$
- Столбцы имеют длину . $V$ $1$
- Столбцы взаимно ортогональны. $V$
- Это делает на вращение в . $V$ $\mathbb{R}^p$
$D$ - диагональная матрица . $p \times p$
- Диагональные элементы не являются отрицательными. Эти особые значения из . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Если мы хотим, мы можем заказать их от самого большого до самого маленького.

Критерии (1) и (2) утверждают, что и и являются ортонормированными матрицами. Их можно аккуратно суммировать по условиям $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

Как следствие (то, что представляет вращение), также. Это будет использовано при выводе регрессии хребта ниже. $V$ $VV^\prime = 1_p$

Что это делает для нас

Это может упростить формулы. Это работает как алгебраически, так и концептуально. Вот несколько примеров.

Нормальные уравнения

Рассмотрим регрессию где, как обычно, независимы и одинаково распределены по закону с нулевым ожиданием и конечной дисперсией . Решение наименьших квадратов с помощью нормальных уравнений: Применение SVD и упрощение получающегося алгебраического беспорядка (что легко) дает хорошее понимание: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((U D V^{'})^{'} (U D V^{'}))^{- 1} (U D V^{'})^{'} = (V D U^{'} U D V^{'})^{- 1} (V D U^{'}) = V D^{- 2} V^{'} V D U^{'} = V D^{- 1} U^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

Единственная разница между этим и заключается в том, что используются обратные значения элементов ! Другими словами, «уравнение» решается путем «инвертирования» : эта псевдообращение отменяет вращения и (просто путем их транспонирования) и отменяет умножение (представленное ) отдельно в каждом главном направлении. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Для дальнейшего использования обратите внимание, что «повернутые» оценки являются линейными комбинациями «повернутых» ответов . Коэффициенты являются инверсиями (положительных) диагональных элементов , равных . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Ковариация оценок коэффициента

Напомним, что ковариация оценок равна Используя SVD, это становится Другими словами, ковариация действует так же, как и у ортогональных переменных, каждая с дисперсией , которые были повернуты в .

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$

R^{k}

$\mathbb{R}^k$

Шляпная матрица

Шляпная матрица имеет видС помощью предыдущего результата мы можем переписать его какПросто!

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (U D V^{'}) (V D^{- 1} U^{'}) = U U^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Собственный анализ (спектральное разложение)

Поскольку и немедленно

X^{'} X = V D U^{'} U D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = U D V^{'} V D U^{'} = U D^{2} U^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

Собственные значения и являются квадратами сингулярных значений. $X^\prime X$ $XX^\prime$
Столбцы являются собственными векторами . $V$ $X^\prime X$
Столбцы являются некоторыми из собственных векторов . (Другие собственные векторы существуют, но соответствуют нулевым собственным значениям.) $U$ $X X^\prime$

SVD может диагностировать и решать проблемы коллинеарности.

Аппроксимация регрессоров

Когда вы заменяете наименьшие единичные значения нулями, вы изменяете произведение лишь незначительно. Теперь, однако, нули исключают соответствующие столбцы , эффективно уменьшая количество переменных. При условии, что эти исключенные столбцы имеют небольшую корреляцию с , это может эффективно работать как метод сокращения переменных. $UDV^\prime$ $U$ $y$

Хребет регрессии

Пусть столбцы будут стандартизированы так же, как сам . (Это означает, что нам больше не нужен постоянный столбец в ) Для оценщик гребня равен $X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D U^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D U^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} D U^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

Разница между этим и является замена по . $\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ По сути, это умножает оригинал на долю . Поскольку (когда ) знаменатель явно больше числителя, оценки параметров «сжимаются к нулю». $D^2/(D^2+\lambda)$ $\lambda \gt 0$

Этот результат следует понимать в несколько утонченном смысле, на который мы ссылались ранее: повернутые оценки по-прежнему представляют собой линейные комбинации векторов , но каждый коэффициент - который раньше был - умножено на коэффициент . Таким образом, повернутые коэффициенты должны уменьшаться, но возможно, когда достаточно мал, чтобы некоторые из фактически увеличились в размере. $V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

Чтобы избежать отвлекающих факторов, в этом обсуждении был исключен случай с одним или несколькими нулевыми значениями. В таких обстоятельствах, если мы обычно принимаем « » равным нулю, $d_{ii}^{-1}$ тогда все по-прежнему работает. Это то, что происходит, когда обобщенные инверсии используются для решения нормальных уравнений.

— Whuber
источник

@Glen_b Это хороший момент: мне нужно было четко указать, какую долю я обдумываю! Я исправлю это.

— whuber

(1) Часть уравнения утверждает, что скалярное произведение каждого столбца на себя равно , откуда каждая длина (по определению) . (2) следует из наблюдения, что является матрицей вращения, поскольку это означает, что также является матрицей вращения. Следовательно . Включение дает .

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

— whuber

@Vimal Спасибо за хорошее предложение. Теперь я включил объяснение в раздел «Нормальные уравнения», где представлена модель регрессии.

— whuber

Когда симметричен, то по определению Сравнивая левую и правую стороны немедленно показывает диагонализация реальной симметричной матрицы является частным случаем СВД , а также предполагает , что в СВД симметричной матрицы, . Это на самом деле так, если невырожден, но доказывает, что это не совсем элементарно, поэтому я не буду вдаваться в подробности.

X

$X$

V D U^{'} = X^{'} = X = U D V^{'} .

$VDU^\prime=X^\prime=X=UDV^\prime.$

U = V

$U=V$

X

$X$

— whuber

@ ааааа, а это так? В подобранном значении мы будем использовать оценки коэффициентов, и до тех пор, пока они будут уменьшены до нуля, то же самое произойдет для подобранного значения.

\hat{y}

$\hat{y}$

— Джеза