Регрессия наименьшего угла сохраняет корреляции монотонно убывающими и связанными?


9

Я пытаюсь решить проблему для наименьшего угла регрессии (LAR). Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения, второй. редактор (5-я печать) .

Рассмотрим регрессионную проблему со всеми переменными и ответом, имеющими среднее значение ноль и стандартное отклонение единицу. Предположим также, что каждая переменная имеет одинаковую абсолютную корреляцию с ответом:

1N|xj,y|=λ,j=1,...,p

Пусть будет коэффициентом наименьших квадратов в \ mathbf {X} и пусть \ mathbf {u} (\ alpha) = \ alpha \ bf {X} \ hat {\ beta} для \ alpha \ in [0,1] .β^yXu(α)=αXβ^α[0,1]

Меня просят показать, что

1N|xj,yu(α)|=(1α)λ,j=1,...,p
и у меня проблемы с этим. Обратите внимание, что это в основном говорит о том, что корреляции каждого xj с остатками остаются равными по величине по мере продвижения к u .

Я также не знаю, как показать, что корреляции равны:

λ(α)знак равно(1-α)(1-α)2+α(2-α)NрSSλ

Любые указатели будут с благодарностью!


2
@ Белмонт, что ты ? Не могли бы вы предоставить больше контекста о вашей проблеме? Ссылка на статью со стандартными свойствами LAR, например, очень поможет. U(α)
mpiktas

@ Belmont, Это похоже на проблему от Хасти и др., Элементы статистического обучения , 2-й. редактор Это домашнее задание? Если это так, вы можете добавить этот тег.
кардинал

@ Belmont, теперь, когда @cardinal дал полный ответ, можете ли вы указать, что такое LAR, для дальнейшего использования? Судя по ответу, это стандартное манипулирование продуктами регрессий наименьших квадратов с учетом некоторых начальных ограничений. Не должно быть специального названия для этого без серьезной причины.
mpiktas

1
@mpiktas, это поэтапный алгоритм, поэтому каждый раз, когда переменная входит или выходит из модели на пути регуляризации, размер (то есть, количество элементов / размерность) увеличивается или уменьшается, и используется «новая» оценка LS, основанная на текущие "активные" переменные. В случае лассо, являющегося проблемой выпуклой оптимизации, процедура заключается в использовании специальной структуры в условиях ККТ для получения очень эффективного решения. Есть также обобщения, например, логистической регрессии, основанной на IRLS и Гейне-Бореле (чтобы доказать сходимость в конечном числе шагов.)β
кардинальный

1
@ Белмонт-1, так как я недавно купил книгу Хасти, я могу подтвердить, что это упражнение из нее. Поэтому я даю вам большое -1, поскольку вам даже не удается дать все определения, я даже не говорю о предоставлении ссылки.
mpiktas

Ответы:


21

Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения , второй. редактор (5-я печать) .

Ключом к этой проблеме является хорошее понимание обычных наименьших квадратов (т. Е. Линейной регрессии), в частности, ортогональности подобранных значений и невязок.

Лемма об ортогональности : пусть будет матрицей проектирования , вектором отклика и (истинными) параметрами. Предполагая, что является полным рангом (что мы и будем везде), OLS-оценки : . Подходящие значения: . Тогда . То есть подобранные значения ортогональны остаткам. Это следует, поскольку ,п × р у & beta ; Х & beta ; & beta ; = ( Х Т Х ) - 1 х Т у у = Х ( Х Т Х ) - 1 х Т у у , у - у= у Т ( у - у ) = 0 Х Т ( у -ИксN×пYβИксββ^знак равно(ИксTИкс)-1ИксTYY^знак равноИкс(ИксTИкс)-1ИксTYY^,Y-Y^знак равноY^T(Y-Y^)знак равно0ИксT(Y-Y^)знак равноИксTY-ИксTИкс(ИксTИкс)-1ИксTYзнак равноИксTY-ИксTYзнак равно0

Теперь быть вектор - столбец такой , что является - го столбца . Предполагаемые условия:x j j XИксJИксJJИкс

  • J1NИксJ,ИксJзнак равно1 для каждого , ,J1NY,Yзнак равно1
  • 1рр1NИксJ,1пзнак равно1NY,1пзнак равно0 где обозначает вектор из единиц длины , и1пп
  • j1N|ИксJ,Y|знак равноλ для всех .J

Обратите внимание, что, в частности , последнее утверждение леммы об ортогональности идентично для всех .JИксJ,Y-Y^знак равно0J


Корреляции связаны

Теперь . Итак, а второе слагаемое в правой части равно нулю по лемме об ортогональности , поэтому по желанию. Абсолютное значение корреляций просто х J , у - у ( ) = х J , ( 1 - α ) у + α у - α у= ( 1 - α ) х J , у + & alpha ; у -U(α)знак равноαИксβ^знак равноαY^

ИксJ,Y-U(a)знак равноИксJ,(1-α)Y+αY-αY^знак равно(1-α)ИксJ,Y+αИксJ,Y-Y^,
1N|ИксJ,Y-U(α)|знак равно(1-α)λ,
ρ^J(α)знак равно1N|ИксJ,Y-U(α)|1NИксJ,ИксJ1NY-U(α),Y-U(α)знак равно(1-α)λ1NY-U(α),Y-U(α)

Примечание : правая часть выше не зависит от а числитель точно такой же, как ковариация, так как мы предположили, что все и центрированы (поэтому, в частности, вычитание среднего не требуется ).JИксJY

В чем смысл? По мере увеличения вектор отклика изменяется так, что он постепенно приближается к ( ограниченному! ) Решению наименьших квадратов, полученному в результате включения в модель только первых параметров. Это одновременно изменяет оценочные параметры, поскольку они являются простыми внутренними произведениями предикторов с (измененным) вектором ответа. Модификация принимает особую форму, хотя. Он сохраняет (величину) корреляции между предикторами и измененным откликом одинаковыми на протяжении всего процесса (даже если значение корреляции изменяется). Подумайте о том, что это делает геометрически, и вы поймете название процедуры!αп


Явная форма (абсолютной) корреляции

Давайте сосредоточимся на термине в знаменателе, поскольку числитель уже находится в требуемой форме. У нас есть

Y-U(α),Y-U(α)знак равно(1-α)Y+αY-U(α),(1-α)Y+αY-U(α),

Подставляя в и используя линейность внутреннего произведения, получимU(α)знак равноαY^

yu(α),yu(α)=(1α)2y,y+2α(1α)y,yy^+α2yy^,yy^.

Соблюдайте это

  • y,y=N по предположению,
  • y,yy^=yy^,yy^+y^,yy^=yy^,yy^ , применяя лемму ортогональности (еще раз) ко второму члену в середине; а также,
  • yy^,yy^=RSS по определению.

Собрав все это вместе, вы заметите, что мы получаем

ρ^j(α)=(1α)λ(1α)2+α(2α)NRSS=(1α)λ(1α)2(1RSSN)+1NRSS

Чтобы обернуть вещи, и поэтому ясно, что монотонно уменьшается в и как .1RSSN=1N(y,y,yy^,yy^)0ρ^j(α)αρ^j(α)0α1


Эпилог : сконцентрируйтесь на идеях здесь. Там действительно только один. Ортогональность лемма делает почти всю работу за нас. Все остальное - это алгебра, нотация и умение использовать последние два.


2
@ cardinal, +1. Ответ на несколько лучше, чем вопрос.
mpiktas

@cardinal, вы можете изменить ссылку на Amazon или какой-либо другой сайт. Я думаю, что ссылка на полную книгу может вызвать некоторые проблемы с авторским правом.
mpiktas

3
@mpiktas, нет. Нет проблем с авторским правом. Это официальный сайт книги. Авторы получили разрешение от Springer на бесплатное размещение PDF-файла в Интернете. (См. Примечание об этом на сайте.) Я думаю, что они получили идею от Стивена Бойда и его текста « Выпуклая оптимизация» . Надеемся, что такая тенденция наберет обороты в течение следующих нескольких лет. Наслаждайтесь!
кардинал

@ Cardinal, ооо огромное спасибо! Это очень великодушно от авторов.
mpiktas

@mpiktas, безусловно, самая популярная книга в серии Springer по статистике. Это выглядит хорошо на iPad. Что напоминает мне --- я должен загрузить текст Бойда на него также. Приветствия.
кардинал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.