1. Что такое регрессия пониженного ранга (RRR)?
Рассмотрим многовариантную множественную линейную регрессию, т.е. регрессию с независимыми переменными и q зависимыми переменными. Пусть X и Y будут центрированными наборами данных предиктор ( n × p ) и ответ ( n × q ). Тогда обычная регрессия по методу наименьших квадратов (OLS) может быть сформулирована как минимизация следующей функции стоимости:pqXYn×pn×q
L=∥Y−XB∥2,
где - матрица весов регрессии p × q . Ее решение дается формулой B O L S = ( Х ⊤ Х ) - 1 х ⊤ Y , и это легко видеть , что это эквивалентно делать Q отдельные МНК регрессии, по одному для каждой зависимой переменной.Bp×q
B^OLS=(X⊤X)−1X⊤Y,
q
Снижение ранг регрессия вводит ограничение на ранг , а именно L должны быть сведен к минимуму с рангом ( B ) ≤ R , где R является максимально допустимым ранг B .BLrank(B)≤rrB
2. Как получить решение RRR?
Оказывается, что RRR можно рассматривать как проблему собственных векторов. В самом деле, используя тот факт , что МНК является по существу ортогональной проекцией на колонке пространства , можно переписать L , как L = ‖ У - Х Б О Л S | | 2 + | | Х Б О Л С - Х Б | | 2 . Первое слагаемое не зависит от B , а второй член может быть сведен к минимуму с помощью SVD / PCA из подогнанных значений Y = X BИксL
L = ∥ Y - X B^O L S∥2+ ∥ X B^O L S- X B ∥2,
В .
Y^= Х Б^O L S
В частности, если сначала R главные оси Y , то B R R R = B O L S U R U ⊤ г .UррY^
В^R R R= B^O L SUрU⊤р,
3. Для чего нужен RRR?
Может быть две причины использовать RRR.
Во-первых, его можно использовать для регуляризации. Аналогично конька регрессии (RR), лассо и т.д., RRR вводит некоторые «усадка» штраф на . Оптимальный ранг r может быть найден путем перекрестной проверки. По моему опыту, RRR легко превосходит OLS, но имеет тенденцию проигрывать RR. Однако RRR + RR может работать (немного) лучше, чем один RR.Вр
Во-вторых, его можно использовать как метод уменьшения размерности / исследования данных. Если у нас есть куча переменных-предикторов и куча зависимых переменных, то RRR создаст «скрытые факторы» в пространстве предикторов, которые лучше всего объясняют дисперсию DV. Затем можно попытаться интерпретировать эти скрытые факторы, построить их и т. Д. Насколько я знаю, это обычно делается в экологии, где RRR известен как анализ избыточности и является примером того, что они называют методами ординации ( см. Ответ @ GavinSimpson здесь ).
4. Связь с другими методами уменьшения размерности
RRR тесно связан с другими методами уменьшения размерности, такими как CCA и PLS. Я немного рассказал об этом в своем ответе на вопрос « Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?
если и Y - центрированные наборы данных предиктор ( n × p ) и ответ ( n × q ) и если мы ищем первую пару осей, то w ∈ R p для X и v ∈ R qИксYn × pn × qw ∈ RпИксv ∈ RQ для , то эти методы максимизируют следующие количества:Y
P C A :R R R :P L S :C C A :Var( X ш )Var( X ш ) ⋅Корр2( X w , Y v ) ⋅ Вар( Y v )Var( X ш ) ⋅ Корр2( X w , Y v ) ⋅ Вар( Y v ) = Cov2( X w , Y v )Var( X ш ) ⋅Корр2( X w , Y v )
Смотрите там для более подробной информации.
См. Torre, 2009, Структура наименьших квадратов для анализа компонентов, где подробно рассматривается, как большинство обычных линейных многомерных методов (например, PCA, CCA, LDA, - но не PLS!) Можно рассматривать как RRR.
5. Почему этот раздел в Hastie et al. так запутанно?
Hastie et al. используйте термин RRR для обозначения немного другой вещи! Вместо того чтобы использовать функции потерь они используют L = ‖ ( У - Х Б ) ( Y ⊤ Y ) - 1 / 2 | | 2 , как можно видеть в их формуле 3.68. Это вводит Y
L = ∥ Y - X B ∥2,
L = ∥ ( Y - X B ) ( Y⊤Y)−1/2∥2,
Y фактор отбеливания в функцию потерь, по существу отбеливая зависимые переменные. Если вы посмотрите на сравнение между CCA и RRR выше, вы заметите, что если
Yотбеливается, тогда разница исчезает. Так что же Хасти и соавт. вызов RRR на самом деле замаскированный CCA (и действительно, см. их 3.69).
Ничто из этого не объяснено должным образом в этом разделе, следовательно, путаница.
См. Мой ответ на дружественный учебник или введение в регрессию пониженного ранга для дальнейшего чтения.