Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения , второй. редактор (5-я печать) .
Ключом к этой проблеме является хорошее понимание обычных наименьших квадратов (т. Е. Линейной регрессии), в частности, ортогональности подобранных значений и невязок.
Лемма об ортогональности : пусть будет матрицей проектирования , вектором отклика и (истинными) параметрами. Предполагая, что является полным рангом (что мы и будем везде), OLS-оценки : . Подходящие значения: . Тогда . То есть подобранные значения ортогональны остаткам. Это следует, поскольку ,п × р у & beta ; Х & beta ; & beta ; = ( Х Т Х ) - 1 х Т у у = Х ( Х Т Х ) - 1 х Т у ⟨ у , у - у ⟩ = у Т ( у - у ) = 0 Х Т ( у -Иксn×pyβXββ^= ( XTИкс)- 1ИксTYY^= X( ХTИкс)- 1ИксTY⟨ у^, у- у^⟩ = У^T( у- у^) = 0ИксT( у- у^) = XTY- ХTИкс( ХTИкс)- 1ИксTY= XTY- ХTY= 0
Теперь быть вектор - столбец такой , что является - го столбца . Предполагаемые условия:x j j XИксJИксJJИкс
- J1N⟨хJ, хJ⟩ = 1 для каждого , ,J1N⟨ у, у⟩ = 1
- 1рр1N⟨ хJ, 1п⟩ = 1N⟨ у, 1п⟩ = 0 где обозначает вектор из единиц длины , и1пп
- j1N| ⟨ хJ, у⟩ | = λ для всех .J
Обратите внимание, что, в частности , последнее утверждение леммы об ортогональности идентично для всех .J⟨ хJ,у- у^⟩ = 0J
Корреляции связаны
Теперь . Итак,
а второе слагаемое в правой части равно нулю по лемме об ортогональности , поэтому
по желанию. Абсолютное значение корреляций просто
⟨ х J , у - у ( ) ⟩ = ⟨ х J , ( 1 - α ) у + α у - α у ⟩ = ( 1 - α ) ⟨ х J , у ⟩ + & alpha ; ⟨ у -u ( α ) = α Xβ^= α y^
⟨ хJ, у- у ( ) ⟩ = ⟨ хJ, ( 1 - α ) y+ α y- α y^⟩ = ( 1 - α ) ⟨ хJ, у⟩ + & Alpha ; ⟨ хJ, у- у^⟩ ,
1N| ⟨ хJ, у- u ( α ) ⟩ | = ( 1 - α ) λ ,
ρ^J( α ) = 1N| ⟨ хJ, у- u ( α ) ⟩ |1N⟨ хJ, хJ⟩--------√1N⟨ у- u ( α ) , у- u ( α ) ⟩------------------√= ( 1 - α ) λ1N⟨ у- u ( α ) , у- u ( α ) ⟩------------------√
Примечание : правая часть выше не зависит от а числитель точно такой же, как ковариация, так как мы предположили, что все и центрированы (поэтому, в частности, вычитание среднего не требуется ).JИксJY
В чем смысл? По мере увеличения вектор отклика изменяется так, что он постепенно приближается к ( ограниченному! ) Решению наименьших квадратов, полученному в результате включения в модель только первых параметров. Это одновременно изменяет оценочные параметры, поскольку они являются простыми внутренними произведениями предикторов с (измененным) вектором ответа. Модификация принимает особую форму, хотя. Он сохраняет (величину) корреляции между предикторами и измененным откликом одинаковыми на протяжении всего процесса (даже если значение корреляции изменяется). Подумайте о том, что это делает геометрически, и вы поймете название процедуры!αп
Явная форма (абсолютной) корреляции
Давайте сосредоточимся на термине в знаменателе, поскольку числитель уже находится в требуемой форме. У нас есть
⟨ у- u ( α ) , у- u ( α ) ⟩ = ⟨ ( 1 - α ) y+ α y- u ( α ) , ( 1 - α ) y+ α y- u ( α ) ⟩ .
Подставляя в и используя линейность внутреннего произведения, получимu ( α ) = α y^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Соблюдайте это
- ⟨y,y⟩=N по предположению,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , применяя лемму ортогональности (еще раз) ко второму члену в середине; а также,
- ⟨y−y^,y−y^⟩=RSS по определению.
Собрав все это вместе, вы заметите, что мы получаем
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Чтобы обернуть вещи, и поэтому ясно, что монотонно уменьшается в и как .1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Эпилог : сконцентрируйтесь на идеях здесь. Там действительно только один. Ортогональность лемма делает почти всю работу за нас. Все остальное - это алгебра, нотация и умение использовать последние два.