Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?

Являются ли регрессия с пониженным рангом и регрессия главных компонентов просто частными случаями частичных наименьших квадратов?

В этом руководстве (Страница 6, «Сравнение целей») утверждается, что когда мы делаем частичные наименьшие квадраты без проецирования X или Y (то есть «не частичные»), оно становится соответственно уменьшенной ранговой регрессией или регрессией главных компонент.

Аналогичное заявление сделано на этой странице документации SAS , разделы «Регрессия пониженного ранга» и «Отношения между методами».

Более фундаментальный последующий вопрос заключается в том, имеют ли они аналогичные вероятностные модели.

— Минков
источник

Это действительно важная проблема.

— Стив

@Стив. Благодарю. Смотрите мои комментарии выше для более подробного введения.

— Миньков

Это три разных метода, и ни один из них не может рассматриваться как частный случай другого.

Формально, если и являются центрированными наборами данных предиктор ( ) и отклик ( ) и если мы ищем первую пару осей, для и для , то эти методы максимизировать следующие количества: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

\begin{aligned} п С A : & Var (Икс вес) \\ р р р : & {Корр}^{2} (Икс вес, Y v) \cdot Var (Y v) \\ п L S : & Var (Икс вес) \cdot {Корр}^{2} (Икс вес, Y v) \cdot Var (Y v) знак равно {Cov}^{2} (Икс вес, Y v) \\ С С A : & {Корр}^{2} (Икс вес, Y v) \end{aligned}

$\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

(Я добавил канонический корреляционный анализ (CCA) в этот список.)

Я подозреваю, что путаница может быть связана с тем, что в SAS все три метода, похоже, реализуются через одну и ту же функцию PROC PLSс разными параметрами. Поэтому может показаться, что все три метода являются частными случаями PLS, потому что так называется функция SAS. Это, однако, просто неудачное наименование. В действительности PLS, RRR и PCR - это три разных метода, которые просто реализуются в SAS в одной функции, которая по какой-то причине вызывается PLS.

Обе учебники, на которые вы ссылались, на самом деле очень ясно об этом. На странице 6 учебного пособия изложены цели всех трех методов и не сказано, что PLS «становится» RRR или PCR, в отличие от того, что вы заявили в своем вопросе. Точно так же документация SAS объясняет, что три метода различны, давая формулы и интуицию:

[P] Принципиальная регрессия компонентов отбирает факторы, которые объясняют как можно больше вариаций предикторов, регрессия пониженного ранга отбирает факторы, которые объясняют как можно больше вариаций отклика, а частичные наименьшие квадраты балансируют две цели, ища факторы, которые объясняют как отклик, так и вариации предикторов. ,

В документации SAS есть даже рисунок, показывающий хороший игрушечный пример, где три метода дают разные решения. В этом игрушечном примере есть два предиктора и и одна переменная ответа . Направление в , наиболее коррелирует с случается быть ортогональна к направлению максимальной дисперсии в . Следовательно, PC1 ортогонален первой оси RRR, а ось PLS находится где-то посередине. $x_1$ $x_2$ $y$ $X$ $y$ $X$

Можно добавить штраф за хребет к функции потери RRR, получив регрессию с пониженным рангом, или RRRR. Это будет тянуть ось регрессии в направлении PC1, что несколько похоже на то, что делает PLS. Однако функция стоимости для RRRR не может быть записана в форме PLS, поэтому они остаются разными.

$y$

— амеба говорит восстановить монику
источник

Стол в конце очень полезен. Исходя из этой таблицы, можно считать PCA, RRR и CCA «особыми случаями» PLS, если вы также считаете, что велосипеды и одноколесные велосипеды являются особыми случаями трехколесного велосипеда. Я не склонен так думать.

— EdM

@ Edm, я думаю, что можно сказать, что все эти методы являются частными случаями какого-то объединяющего метода, у которого на самом деле нет имени (но его можно изобрести!). Но название «PLS» уже имеет установленное значение, и это значение не включает ни одну из этих других техник.

— говорит амеба: восстанови Монику

И спасибо! Я решил теперь перенести таблицу в начало ответа :)

— говорит амеба Reinstate Monica

X

$X$

Y

$Y$

V a r (X w)^{α} \cdot C o r r (X w, Y v)^{β} \cdot V a r (Y v)^{γ}

$\mathrm{Var}(Xw)^\alpha\cdot \mathrm{Corr}(Xw,Yv)^\beta\cdot \mathrm{Var}(Yv)^\gamma$

— говорит амеба: восстанови Монику

@Moskowitz: В общем, когда люди говорят о том, что метод A является «особым случаем» метода B, они подразумевают, что B более общий и A эквивалентен B с некоторыми конкретными параметрами. Они не означают, что A дает те же результаты, что и B, при некоторых особых условиях в наборе данных. Отсюда и мой ответ на ваш вопрос.

— говорит амеба: восстанови Монику