Почему регрессия хребта называется «хребет», зачем она нужна и что происходит, когда уходит в бесконечность?


71

Оценка коэффициента регрессии хребта - это значения, которые минимизируютβ^R

RSS+λj=1pβj2.

Мои вопросы:

  1. Если , то мы видим, что приведенное выше выражение сводится к обычному RSS. Что делать, если ? Я не понимаю из учебника объяснение поведения коэффициентов.λ=0λ

  2. Чтобы помочь понять концепцию, лежащую в основе конкретного термина, почему этот термин называется RIDGE Regression? (Почему хребет?) И что могло быть не так с обычной / обычной регрессией, что существует необходимость ввести новую концепцию, называемую регрессия хребта?

Ваше понимание было бы здорово.

Ответы:


89

Так как вы просите дать понимание , я собираюсь использовать довольно интуитивный подход, а не более математический подход:

  1. Следуя концепциям в моем ответе здесь , мы можем сформулировать регрессию гребня как регрессию с фиктивными данными, добавив (в вашей формулировке) наблюдения, где , и для . Если вы напишите новый RSS для этого расширенного набора данных, вы увидите дополнительные наблюдения, каждый из которых добавляет термин вида , поэтому новый RSS является оригинальным - и минимизация RSS для этого нового расширенного набора данных аналогична минимизации критерия регрессии гребня.pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    Итак, что мы можем увидеть здесь? По мере увеличения у каждой дополнительной стрелки увеличивается один компонент, поэтому влияние этих точек также увеличивается. Они тянут подогнанную гиперплоскость к себе. Затем, когда и соответствующие компоненты уходят в бесконечность, все задействованные коэффициенты «сглаживаются» до .λxλx0

    То есть, как , штраф будет доминировать при минимизации, поэтому будут равны нулю. Если перехват не оштрафован (обычный случай), то модель все больше и больше сужается к среднему значению ответа.λβ

  2. Я дам интуитивное понимание того, почему мы сначала говорим о гребнях (что также говорит о том, зачем это нужно), а затем немного расскажу об истории. Первый адаптирован из моего ответа здесь :

    Если есть мультиколлинеарность, вы получаете «гребень» в функции правдоподобия (правдоподобие является функцией ). Это, в свою очередь, приводит к длинной «долине» в RSS (так как RSS = ).β2logL

    Регрессия гребня «исправляет» гребень - он добавляет штраф, который превращает гребень в хороший пик в пространстве правдоподобия, что эквивалентно хорошей депрессии в критерии, который мы минимизируем:

    хребет в LS превращается в пик регрессии хребта
    [ Более четкое изображение ]

    Фактическая история позади названия немного сложнее. В 1959 г. AE Hoerl [1] ввел анализ гребней для методологии поверхности отклика, и очень скоро [2] стал адаптироваться к работе с мультиколлинеарностью в регрессии («регрессия гребней»). См., Например, обсуждение RW Hoerl в [3], где оно описывает использование Hoerl (AE не RW) контурных графиков поверхности отклика * при определении того, куда направиться, чтобы найти локальные оптимумы (где кто-то возглавляет хребет "). В плохо обусловленных проблемах возникает проблема очень длинного гребня, и понимание и методология анализа гребня адаптированы к связанной проблеме с вероятностью / RSS в регрессии, производя регрессию гребня.

* примеры контурных графиков поверхности отклика (в случае квадратичного отклика) можно увидеть здесь (Рис. 3.9-3.12).

То есть «гребень» на самом деле относится к характеристикам функции, которую мы пытались оптимизировать, а не к добавлению «гребня» (+ ve диагональ) к матрице (поэтому, хотя регрессия гребня действительно добавляет к диагонали, это не то, почему мы называем это «регрессия гребня»).XTX

Для получения дополнительной информации о необходимости регрессии гребня см. Первую ссылку в пункте списка 2 выше.


Рекомендации:

[1]: Hoerl, AE (1959). Оптимальное решение уравнений многих переменных. Chemical Engineering Progress , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Применение анализа гребня к задачам регрессии. Chemical Engineering Progress , 58 (3) 54-59.

[3] Hoerl, RW (1985). Анализ хребта 25 лет спустя. Американский статистик , 39 (3), 186-192


2
Это очень полезно. Да, когда я просил идеи, я искал интуицию. Конечно, математика важна, но я также искал концептуальные объяснения, потому что есть некоторые части, когда математика была выше меня. Еще раз спасибо.
cgo

Почему у вас есть слово «взвешенный» в пуле 1?
говорит амеба, восстанови Монику

1
Это хороший вопрос; нет необходимости его взвешивать, если исходная регрессия не была взвешена. Я удалил прилагательное. Это также можно записать его в виде взвешенной регрессии (который , если вы уже делаете взвешенной регрессии может быть очень немного легче иметь дело с).
Glen_b

36
  1. Если то наше наказание будет бесконечным для любой кроме , поэтому мы получим именно это. Нет другого вектора, который бы давал нам конечное значение целевой функции.λββ=0

(Обновление: смотрите ответ Glen_b. Это не правильная историческая причина!)

  1. Это происходит из решения регрессии гребня в матричной записи. Решение оказывается термин добавляет «хребет» на главной диагонали и гарантирует , что полученная матрица обратима. Это означает, что, в отличие от OLS, мы всегда найдем решение.
    β^=(XTX+λI)1XTY.
    λI

Ридж регрессия полезна, когда предикторы коррелируют. В этом случае OLS может дать дикие результаты с огромными коэффициентами, но если они будут оштрафованы, мы можем получить гораздо более разумные результаты. В целом большое преимущество регрессионного гребня заключается в том, что решение всегда существует, как упомянуто выше. Это относится даже к случаю, когда , для которого OLS не может предоставить (уникальное) решение.n<p

Регрессия гребня также является результатом того, что нормальный априор помещается в вектор .β

Вот байесовский подход к регрессии гребня: Предположим, что наш приоритет для равен . Тогда, потому что [по предположению] мы имеем, что ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

Давайте найдем апостериорный режим (мы могли бы взглянуть и на апостериорное среднее или другие вещи, но для этого давайте посмотрим на моду, то есть наиболее вероятное значение). Это означает, что мы хотим что эквивалентно

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
потому что строго монотонен, а это в свою очередь эквивалентно log
minβRp||yXβ||2+λβTβ

который должен выглядеть довольно знакомым.

Таким образом, мы видим, что если мы поместим нормальный априор со средним 0 и дисперсией в наш вектор , значение которое максимизирует апостериор, является оценкой гребня. Обратите внимание, что это больше относится к в качестве параметра для часто используемых, потому что до него нет предшествующего, но неизвестно, так что это не совсем байесовский параметр.σ2λββσ2

Изменить: вы спросили о случае, где . Мы знаем, что гиперплоскость в определяется ровно точками. Если мы запускаем линейную регрессию и то мы точно интерполируем наши данные и получаем . Это решение, но оно ужасное: наша производительность по будущим данным, скорее всего, будет ужасной. Теперь предположим, что : больше нет единственной гиперплоскости, определенной этими точками. Мы можем разместить множество гиперплоскостей, каждая с нулевой суммой квадратов.n<pRppn=p||yXβ^||2=0n<p

Очень простой пример: предположим, что . Тогда мы просто получим грань между этими двумя точками. Теперь предположим, что но . Представьте себе самолет с этими двумя точками. Мы можем вращать эту плоскость, не изменяя того факта, что эти две точки находятся в ней, поэтому существует бесчисленное множество моделей с идеальным значением нашей целевой функции, поэтому даже за пределами вопроса о переоснащении неясно, какую из них выбрать.n=p=2n=2p=3

В качестве заключительного комментария (согласно предложению @ gung), LASSO (с использованием штрафа ) обычно используется для задач большого размера, потому что он автоматически выполняет выбор переменных (устанавливает some ). Достаточно восхитительно, оказывается, что LASSO эквивалентно нахождению апостериорной моды при использовании двойной экспоненты (иначе Лапласа) перед вектором . У LASSO также есть некоторые ограничения, такие как насыщение в предикторах и необязательно идеальная обработка групп коррелированных предикторов, поэтому можно использовать эластичную сеть (выпуклая комбинация штрафов и ).L1βj=0βnL1L2


1
(+1) Ваш ответ может быть улучшен путем уточнения связи между байесовской и хребтовой регрессией.
Восстановите Монику

1
Сделаем - набрав это сейчас.
JDD

4
OLS не может найти уникальное решение, когда потому что матрица дизайна не является полным рангом. Это очень распространенный вопрос; пожалуйста, поищите в архивах описание того, почему это не работает. n<p
Восстановить Монику

2
@cgo: объяснение и предложение user777 для поиска - хорошее, но ради полноты я также добавил (надеюсь) интуитивное объяснение.
JLD

5
+1, хороший ответ. В отношении n <p, вы могли бы упомянуть, что LASSO обычно используется в этом случае и что он тесно связан с RR.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.