Что такое «регрессия пониженного ранга»?


22

Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты неизвестны (и должны оцениваться), но известно, что они не имеют полного ранга. Это единственное, что я понимаю.

Остальная часть математики вне меня. Даже не помогает, что авторы говорят «можно показать» и оставляют вещи как упражнение.

Может кто-нибудь помочь объяснить, что здесь происходит, интуитивно? В этой главе якобы обсуждаются новые методы? или что?


1
Похоже, что это дает методы регрессии, которые используют модели с множественными результатами в контексте сокращения и выбора переменных. Существует не один Y-результат, но более одного Y-результата. Допустим, у вас есть 5 результатов Y, затем в этом разделе обсуждаются методы объединения оценки методов, а не просто построение 5 отдельных моделей.
spdrnl

1
Мои несколько центов: предположение о матрице низкого ранга упрощает ситуацию. К счастью, это предположение справедливо для многих реальных источников данных.
Владислав Довгальец

1
Похоже, что это предположение о наличии ограничений на решение. В данной статье описывается , почему statprob.com/encyclopedia/...
Vladislavs Dovgalecs

Ответы:


42

1. Что такое регрессия пониженного ранга (RRR)?

Рассмотрим многовариантную множественную линейную регрессию, т.е. регрессию с независимыми переменными и q зависимыми переменными. Пусть X и Y будут центрированными наборами данных предиктор ( n × p ) и ответ ( n × q ). Тогда обычная регрессия по методу наименьших квадратов (OLS) может быть сформулирована как минимизация следующей функции стоимости:пQИксYN×пN×Q

Lзнак равно| |Y-ИксВ| |2,

где - матрица весов регрессии p × q . Ее решение дается формулой B O L S = ( ХХ ) - 1 хY , и это легко видеть , что это эквивалентно делать Q отдельные МНК регрессии, по одному для каждой зависимой переменной.Вп×Q

В^ОLSзнак равно(ИксИкс)-1ИксY,
Q

Снижение ранг регрессия вводит ограничение на ранг , а именно L должны быть сведен к минимуму с рангом ( B ) R , где R является максимально допустимым ранг B .ВLранг(В)ррВ

2. Как получить решение RRR?

Оказывается, что RRR можно рассматривать как проблему собственных векторов. В самом деле, используя тот факт , что МНК является по существу ортогональной проекцией на колонке пространства , можно переписать L , как L = У - Х Б О Л S | | 2 + | | Х Б О Л С - Х Б | | 2 . Первое слагаемое не зависит от B , а второй член может быть сведен к минимуму с помощью SVD / PCA из подогнанных значений Y = X BИксL

Lзнак равно| |Y-ИксВ^ОLS| |2+| |ИксВ^ОLS-ИксВ| |2,
В .Y^знак равноИксВ^ОLS

В частности, если сначала R главные оси Y , то B R R R = B O L S U R U г .UррY^

В^рррзнак равноВ^ОLSUрUр,

3. Для чего нужен RRR?

Может быть две причины использовать RRR.

Во-первых, его можно использовать для регуляризации. Аналогично конька регрессии (RR), лассо и т.д., RRR вводит некоторые «усадка» штраф на . Оптимальный ранг r может быть найден путем перекрестной проверки. По моему опыту, RRR легко превосходит OLS, но имеет тенденцию проигрывать RR. Однако RRR + RR может работать (немного) лучше, чем один RR.Вр

Во-вторых, его можно использовать как метод уменьшения размерности / исследования данных. Если у нас есть куча переменных-предикторов и куча зависимых переменных, то RRR создаст «скрытые факторы» в пространстве предикторов, которые лучше всего объясняют дисперсию DV. Затем можно попытаться интерпретировать эти скрытые факторы, построить их и т. Д. Насколько я знаю, это обычно делается в экологии, где RRR известен как анализ избыточности и является примером того, что они называют методами ординации ( см. Ответ @ GavinSimpson здесь ).

4. Связь с другими методами уменьшения размерности

RRR тесно связан с другими методами уменьшения размерности, такими как CCA и PLS. Я немного рассказал об этом в своем ответе на вопрос « Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?

если и Y - центрированные наборы данных предиктор ( n × p ) и ответ ( n × q ) и если мы ищем первую пару осей, то wR p для X и vR qИксYN×пN×QвесрпИксvрQ для , то эти методы максимизируют следующие количества:Y

пСA:Var(Иксвес)ррр:Var(Иксвес)Корр2(Иксвес,Yv)Var(Yv)пLS:Var(Иксвес)Корр2(Иксвес,Yv)Var(Yv)знак равноCov2(Иксвес,Yv)ССA:Var(Иксвес)Корр2(Иксвес,Yv)

Смотрите там для более подробной информации.

См. Torre, 2009, Структура наименьших квадратов для анализа компонентов, где подробно рассматривается, как большинство обычных линейных многомерных методов (например, PCA, CCA, LDA, - но не PLS!) Можно рассматривать как RRR.

5. Почему этот раздел в Hastie et al. так запутанно?

Hastie et al. используйте термин RRR для обозначения немного другой вещи! Вместо того чтобы использовать функции потерь они используют L = ( У - Х Б ) ( YY ) - 1 / 2 | | 2 , как можно видеть в их формуле 3.68. Это вводит Y

Lзнак равно| |Y-ИксВ| |2,
L=(YXB)(YY)1/22,
Y фактор отбеливания в функцию потерь, по существу отбеливая зависимые переменные. Если вы посмотрите на сравнение между CCA и RRR выше, вы заметите, что если Yотбеливается, тогда разница исчезает. Так что же Хасти и соавт. вызов RRR на самом деле замаскированный CCA (и действительно, см. их 3.69).

Ничто из этого не объяснено должным образом в этом разделе, следовательно, путаница.


См. Мой ответ на дружественный учебник или введение в регрессию пониженного ранга для дальнейшего чтения.


Это очень красиво написанное подробное объяснение. Спасибо, я ценю это.
ОЦП

рВ

1
YВВLВL

1
ррД.Ф.^(р)знак равнопQ-(п-р)(Q-р)+«небольшой срок коррекции»пQр| |Y-Y^RRRR(р)| |Фро2(NQ-Д.Ф.^(р))2


3

Регрессия с пониженным рангом - это модель, в которой не один Y-результат, а несколько Y-результатов. Конечно, вы можете просто подогнать отдельную многомерную линейную регрессию для каждого ответа, но это кажется неэффективным, когда функциональные отношения между предикторами и каждым ответом явно схожи. Посмотрите это упражнение в ситуации, когда я считаю, что это очевидно верно.

https://www.kaggle.com/c/bike-sharing-demand/data

Есть несколько связанных методов для решения этой проблемы, которые строят «факторы» или «компоненты» из переменных X, которые затем используются для предсказания Ys. Эта страница документации от SAS помогла мне разобраться. Регрессия пониженного ранга, по-видимому, связана с извлечением компонентов, которые максимально учитывают различия между ответами, в отличие от частично наименьших квадратов, которые извлекают компоненты, максимально учитывающие различия между ответами и предикторами.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. Правильно. Я обсуждал эту страницу документации SAS и, в частности, их рисунок в своем ответе на stats.stackexchange.com/questions/206587.
говорит амеба, восстанови Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.