Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».
Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».
Ответы:
Вопрос, кажется, требует демонстрации того, что Ридж-регрессия сжимает оценки коэффициентов до нуля, используя спектральное разложение. Спектральное разложение можно понимать как простое следствие разложения по сингулярным числам (SVD). Поэтому этот пост начинается с SVD. Это объясняет это в простых терминах, а затем иллюстрирует это важными приложениями. Затем он предоставляет запрашиваемую (алгебраическую) демонстрацию. (Алгебра, конечно, идентична геометрической демонстрации; она просто представлена на другом языке.)
Первоначальный источник этого ответа можно найти в моих заметках о регрессионном курсе . Эта версия исправляет некоторые незначительные ошибки.
Любая матрица с может быть записана как гдеX p ≤ n X = U D V ′
n × p является матрицей .
p × p является матрицей .
p × p - диагональная матрица .
Критерии (1) и (2) утверждают, что и и являются ортонормированными матрицами. Их можно аккуратно суммировать по условиямV
Как следствие (то, что представляет вращение), также. Это будет использовано при выводе регрессии хребта ниже.V V ′ = 1 р
Это может упростить формулы. Это работает как алгебраически, так и концептуально. Вот несколько примеров.
Рассмотрим регрессию где, как обычно, независимы и одинаково распределены по закону с нулевым ожиданием и конечной дисперсией . Решение наименьших квадратов с помощью нормальных уравнений: Применение SVD и упрощение получающегося алгебраического беспорядка (что легко) дает хорошее понимание:epsi ; сг 2 β = ( Х ' х ) - 1 х ' у .
Единственная разница между этим и заключается в том, что используются обратные значения элементов ! Другими словами, «уравнение» решается путем «инвертирования» : эта псевдообращение отменяет вращения и (просто путем их транспонирования) и отменяет умножение (представленное ) отдельно в каждом главном направлении. D y = X β X U V ′ D
Для дальнейшего использования обратите внимание, что «повернутые» оценки являются линейными комбинациями «повернутых» ответов . Коэффициенты являются инверсиями (положительных) диагональных элементов , равных . β ¯u ' у D D - 1 я я
Напомним, что ковариация оценок равна Используя SVD, это становится Другими словами, ковариация действует так же, как и у ортогональных переменных, каждая с дисперсией , которые были повернуты в .σ 2 ( V D 2 V ′ ) - 1 =
Шляпная матрица имеет видС помощью предыдущего результата мы можем переписать его какПросто!H=(UD V ′ )(V D - 1 U ′ )=U U ′ .
Поскольку и немедленно X X ' = U D V ' V D U ' = U D 2 U ' ,
SVD может диагностировать и решать проблемы коллинеарности.
Когда вы заменяете наименьшие единичные значения нулями, вы изменяете произведение лишь незначительно. Теперь, однако, нули исключают соответствующие столбцы , эффективно уменьшая количество переменных. При условии, что эти исключенные столбцы имеют небольшую корреляцию с , это может эффективно работать как метод сокращения переменных. U y
Пусть столбцы будут стандартизированы так же, как сам . (Это означает, что нам больше не нужен постоянный столбец в ) Для оценщик гребня равен у Х λ > 0 β R
Разница между этим и является замена по . По сути, это умножает оригинал на долю . Поскольку (когда ) знаменатель явно больше числителя, оценки параметров «сжимаются к нулю».
Этот результат следует понимать в несколько утонченном смысле, на который мы ссылались ранее: повернутые оценки по-прежнему представляют собой линейные комбинации векторов , но каждый коэффициент - который раньше был - умножено на коэффициент . Таким образом, повернутые коэффициенты должны уменьшаться, но возможно, когда достаточно мал, чтобы некоторые из фактически увеличились в размере. β R ¯u ' у д - 1
Чтобы избежать отвлекающих факторов, в этом обсуждении был исключен случай с одним или несколькими нулевыми значениями. В таких обстоятельствах, если мы обычно принимаем « » равным нулю, тогда все по-прежнему работает. Это то, что происходит, когда обобщенные инверсии используются для решения нормальных уравнений.