Предел оценки гребневой регрессии «единичная дисперсия» при


21

Рассмотрим регрессию гребня с дополнительным ограничением, требующим, чтобы имел единичную сумму квадратов (эквивалентно, единичную дисперсию); при необходимости можно предположить, что имеет единичную сумму квадратов:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Каков предел β^λ когда λ ?


Вот некоторые утверждения, которые я считаю верными:

  1. Когда λ=0 , есть аккуратное явное решение: возьмите оценку OLS β^0=(XX)1Xy и нормализуйте его для удовлетворения ограничения (это можно увидеть, добавив множитель Лагранжа и дифференцируя):

    β^0=β^0/Xβ^0.
  2. В общем случае решение

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Я не вижу решения в закрытой форме, когда λ>0 . Кажется, что решение эквивалентно обычному оценщику RR с некоторым λ нормализованным для удовлетворения ограничения, но я не вижу закрытой формулы для λ .
  3. Когда λ , обычный оценщик RR

    β^λ=(XX+λI)1Xy
    очевидно сходится к нулю, но его направление β^λ/β^λсходится к направлению Xy , он же первые частичные наименьших квадратов (PLS) компонента.

Утверждения (2) и (3) вместе заставляют меня думать, что, возможно, β^λ также сходится к соответствующим образом нормализованным Xy , но я не уверен, что это правильно, и мне так и не удалось убедить себя в любом случае.

Ответы:


17

Геометрическая интерпретация

Оценка, описанная в вопросе, является множителем Лагранжа, эквивалентным следующей задаче оптимизации:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

что геометрически можно рассматривать как нахождение наименьшего эллипсоида который касается пересечения сферы и эллипсоидаf(β)=RSS g(β)=th(β)=1


Сравнение со стандартным видом регрессии гребня

С точки зрения геометрического представления это изменяет старый вид (для стандартной регрессии гребня) точки, где сфероид (ошибки) и сфера ( ) касаютсяβ2=t . В новом представлении, где мы ищем точку, где сфероид (ошибки) касается кривой (норма бета ограничена )Xβ2=1 . Одна сфера (синяя на левом изображении) превращается в фигуру меньшего размера из-за пересечения с ограничением .Xβ=1

В двумерном случае это просто для просмотра.

геометрический вид

Когда мы настраиваем параметр мы меняем относительную длину синих / красных сфер или относительные размеры и (В теории множителей Лагранжа, вероятно, есть аккуратный способ формально и точно описать , что это означает , что для каждого как функции , или обратных, является монотонной функцией. Но я думаю , что вы можете увидеть интуитивно , что сумма квадратов невязок только возрастает , когда мы уменьшаем .)tf(β)g(β) tλ||β||

Решение для такое, как вы указали на линии между 0 иβλλ=0βLS

Решение для (действительно, как вы прокомментировали) в загрузках первого основного компонента. Это та точка, где является наименьшим для . Это точка, где окружность касается эллипса в одной точке.βλλβ2βX2=1β2=t|Xβ|=1

В этом двумерном виде ребра пересечения сферы и сфероида являются точками. В нескольких измерениях это будут кривыеβ2=tβX2=1

(Сначала я представил, что эти кривые будут эллипсами, но они более сложные. Вы можете представить, что эллипсоид пересекается с шаром как некоторые вид эллипсоида, но с ребрами, которые не являются простыми эллипсами)Xβ2=1β2t


Относительно лимитаλ

Сначала (предыдущие правки) я написал, что будет некоторое ограничение выше которого все решения одинаковы (и они находятся в точке ). Но это не тот случайλlimβ

Рассмотрим оптимизацию как алгоритм LARS или градиентный спуск. Если для какой-либо точки существует направление, в котором мы можем изменить так, чтобы штрафной член увеличивался меньше, чем член SSR то вы не находитесь в минимуме ,ββ|β|2|yXβ|2

  • В обычной регрессии гребня у вас нулевой наклон (во всех направлениях) для в точке . Таким образом, для всех конечных решение не может быть (поскольку можно сделать бесконечно малый шаг, чтобы уменьшить сумму квадратов невязок без увеличения штрафа).|β|2β=0λβ=0
  • Для LASSO это не то же самое, поскольку: штраф равен (поэтому он не является квадратичным с нулевым наклоном). Из-за этого LASSO будет иметь некоторое предельное значение выше которого все решения равны нулю, поскольку штрафной член (умноженный на ) будет увеличиваться больше, чем уменьшается остаточная сумма квадратов.|β|1λlimλ
  • Для ограниченного гребня вы получаете то же самое, что и обычная регрессия гребня. Если вы измените начиная с , то это изменение будет перпендикулярна к ( перпендикулярно к поверхности эллипса ) и можно изменить на бесконечно малый шаг, не изменяя штрафной член, но уменьшая сумму квадратов невязок. Таким образом, для любой конечной точка не может быть решением.ββββ|Xβ|=1βλβ

Дополнительные примечания относительно лимитаλ

Обычный предел регрессии гребня для до бесконечности соответствует другой точке в регрессии ограниченного гребня. Этот «старый» предел соответствует точке, где равен -1. Тогда производная функции Лагранжа в нормированной задачеλμ

2(1+μ)XTXβ+2XTy+2λβ
соответствует решению для производной функции Лагранжа в стандартной задаче

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Автор StackExchangeStrike


+1. Большое спасибо, это очень полезно! Мне понадобится некоторое время, чтобы обдумать это.
говорит амеба: восстанови Монику

Стоит отметить, что красный и черный эллипсоиды имеют одинаковую форму: вот почему точка, в которой они соприкасаются, лежит на линии, соединяющей их центры. Хорошее графическое доказательство пункта № 1 в моем вопросе.
говорит амеба: восстанови Монику

Я пытаюсь понять, где на вашем рисунке находится бета, которая соответствует оценке гребня с бесконечной лямбдой, нормализованной для лежания на черном эллипсе. Я думаю, что это где-то между и (используя мою запись) - две точки, которые отмечены черными кружками на вашем рисунке. Таким образом, если мы выполним регрессию гребня и нормализуем решение и увеличим лямбду от 0 до бесконечности, это, вероятно, приведет нас по той же дуге, но не весь путь до ПК1. Вместо этого, явно вставив ограничение , вы получаете решения вплоть до PC1. β0βXβ=1
говорит амеба: восстанови Монику

+5 (Я получил награду, которую я с радостью присужду вашему ответу). Я также разместил свой собственный ответ, потому что я сделал некоторые алгебраические выводы, и это было слишком много, чтобы добавить к вопросу. Я не убежден вашим выводом, что будет некоторый конечный после которого решение больше не изменится и будет дано PC1. Я не вижу этого алгебраически, и я не совсем понимаю ваш аргумент, почему он должен существовать. Попробуем разобраться. λlim
говорит амеба: восстанови Монику

@amoeba, ты был прав насчет того, что конечное не существует. Я слишком много спорил интуитивно и быстро перешел от определенного условия регулярной регрессии к гребню к регрессии с ограниченным гребнем. Обычный RR имеет нулевой наклон (во всех направлениях) для в точке . Я думал, что (начиная с ) вы не получите это с помощью ограниченной регрессии. Однако, поскольку ограничена эллипсоидом вы не можете «двигаться» во всех направлениях. λlim|β|2β=0β0β|Xβ|=1β
Секст Эмпирик

10

Это алгебраический аналог красивого геометрического ответа @ Martijn.

Прежде всего, предел когда очень просто получить: в пределе первое слагаемое в функции потерь становится пренебрежимо малым и поэтому может быть проигнорировано. Задача оптимизации становится который является первым основным компонентом

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λ
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(соответственно масштабируется). Это отвечает на вопрос.

Теперь давайте рассмотрим решение для любого значения которое я упомянул в пункте № 2 моего вопроса. Добавляя к функции потерь множитель Лагранжа и дифференцируя, получаемλμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Как ведет себя это решение, когда растет от нуля до бесконечности?λ

  • Когда , мы получаем масштабированную версию решения OLS:λ=0

    β^0β^0.
  • Для положительных, но небольших значений , решение представляет собой уменьшенную версию некоторой оценки гребня:λ

    β^λβ^λ.
  • Когдазначение необходимое для удовлетворения ограничения, равно . Это означает, что решение представляет собой масштабированную версию первого компонента PLS (то есть, что соответствующей оценки гребня равно ):λ=XXy(1+μ)0λ

    β^XXyXy.
  • Когда становится больше этого значения, необходимый член становится отрицательным. Отныне решение представляет собой масштабную версию псевдориджевой оценки с отрицательным параметром регуляризации ( отрицательный гребень ). С точки зрения направлений, мы теперь прошли регрессию гребня с бесконечной лямбдой.λ(1+μ)

  • Когда , термин обнуляется (или расходится до бесконечность), если только где - наибольшее единственное значение . Это сделает конечным и пропорциональным первой главной оси . Нам нужно установить для удовлетворения ограничения. Таким образом, мы получаем, чтоλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

В целом, мы видим, что эта ограниченная проблема минимизации охватывает версии OLS, RR, PLS и PCA с единичной дисперсией для следующего спектра:

OLSRRPLSnegative RRPCA

Похоже, что это эквивалентно неясной (?) Хемометрической структуре, называемой "континуальная регрессия" (см. Https://scholar.google.de/scholar?q="continuum+regression " , в частности Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg, 1999 и т. Д.), Который допускает такое же объединение путем максимизации специального критерияЭто, очевидно, дает масштабированный OLS, когда , PLS, когда , PCA, когда , и может показать, что он дает масштабированный RR для

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , см. Sundberg 1993.

Несмотря на небольшой опыт работы с RR / PLS / PCA / и т. Д., Я должен признать, что никогда раньше не слышал о «регрессии континуума». Я также должен сказать, что мне не нравится этот термин.


Схема, которую я сделал на основе @ Martijn's:

Регрессия гребня единичной дисперсии

Обновление: рисунок обновлен с отрицательным путем, огромное спасибо @Martijn за подсказку, как это должно выглядеть. См. Мой ответ в разделе « Понимание отрицательной регрессии гребня» для более подробной информации.


«Континуальная регрессия», по-видимому, является одной из удивительно широкой категории методов, направленных на объединение PLS и PCA в рамках общей структуры. Между прочим, я никогда не слышал об этом до исследования отрицательного гребня (я даю ссылку на Bjorkstron & Sundberg, 1999, статья в первом комментарии к вопросу об отрицательном гребне, на который вы ссылаетесь), хотя это, кажется, довольно широко обсуждается в хемометрическая литература. Должна быть какая-то историческая причина, почему она развивалась, по-видимому, изолированно от других областей статистики. (1/3)
Райан Симмонс

Вы можете захотеть прочитать одну статью - де Йонг и соавт. (2001) . Их формулировка «канонический PLS», на первый взгляд, кажется эквивалентной вашей, хотя я признаю, что я еще недостаточно тщательно сравнивал математику (они также предоставляют обзор нескольких других обобщений PLS-PCA в том же духе). Но может быть полезно увидеть, как они объяснили проблему. (2/3)
Райан Симмонс

В случае, если эта ссылка умирает, полное цитирование: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. «Канонические частичные наименьшие квадраты и непрерывная регрессия мощности». Журнал Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Райан Симмонс

1
ах, хорошо, тогда и переходят в бесконечность но их соотношение остается . В любом случае путь регрессии отрицательного гребня должен находиться в (отрицательном) секторе между векторами PLS и PCA, чтобы их проекция на эллипснаходится между точками PLS и PCA. (норма, ведущая к бесконечности, имеет смысл, поскольку стремится к бесконечности, поэтому путь продолжается в нижний правый угол, первоначально касательный к отрицательному, PLS и, в конечном счете, к PCA) 1 + μ ± s 2 m a x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
Это добавило бы к визуализации. Я представляю себе, что текущие три точки пути RR (где касаются окружность и эллипсоид) продолжаются вниз вправо и в конечном итоге на бесконечности окружность и эллипсоид должны 'касание' в направлении от на месте , где круг касается эллипсоида | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Секст Эмпирик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.