Почему все компоненты PLS вместе объясняют только часть дисперсии исходных данных?


10

У меня есть набор данных, состоящий из 10 переменных. Я запустил частичные наименьшие квадраты (PLS), чтобы предсказать одну переменную ответа по этим 10 переменным, извлек 10 компонентов PLS, а затем вычислил дисперсию каждого компонента. По исходным данным я взял сумму дисперсий всех переменных, которая составляет 702.

Затем я разделил дисперсию каждого из компонентов PLS на эту сумму, чтобы получить процент дисперсии, объясненный PLS, и, что удивительно, все компоненты вместе объясняют только 44% первоначальной дисперсии.

Чем это объясняется? Разве это не должно быть 100%?


Как я знаю на стороне ответа (y), что определяет количество компонентов PLS, является минимальным числом наблюдения. у меня 20 наблюдений. Но с другой стороны, у меня просто есть 10 независимых переменных, что ограничивает меня 10 PLS. Мой вопрос заключается в том, какова общая формула для расчета объясненной дисперсии по каждому компоненту (PLS или PCA).
Ресс

mathworks.com/help/stats/plsregress.html в этом примере имеется только одна переменная на стороне Y и вычисляется 10 компонентов.
Ресс

Ответы:


12

Сумма отклонений всех компонентов PLS обычно составляет менее 100%.

Существует много вариантов частичных наименьших квадратов (PLS). Здесь вы использовали PLS-регрессию одномерной переменной ответа на несколько переменных ; этот алгоритм традиционно известен как PLS1 (в отличие от других вариантов, см. Rosipal & Kramer, 2006, Overview и Недавние достижения в области частично наименьших квадратов для краткого обзора). Позже было показано, что PLS1 эквивалентен более изящной формулировке, называемой SIMPLS (см. Ссылку на Paywalled Jong 1988 в Rosipal & Kramer). Представление, предоставленное SIMPLS, помогает понять, что происходит в PLS1.yX

Оказывается, что PLS1 делает, чтобы найти последовательность линейных проекций , такую ​​что:ti=Xwi

  1. Ковариантность между и максимальна;yti
  2. Все весовые векторы имеют единичную длину, ;wi=1
  3. Любые два компонента PLS (иначе векторы оценок) и не коррелированы.titj

Обратите внимание, что векторы веса не должны быть (и не являются) ортогональными.

Это означает, что если состоит из переменных и вы нашли компонентов PLS, то вы нашли неортогональный базис с некоррелированными проекциями на базисные векторы. Можно математически доказать , что в такой ситуации сумма отклонений всех этих прогнозов будет меньше , то общая дисперсия . Они были бы равны, если бы векторы весов были ортогональны (как, например, в PCA), но в PLS это не так.Xk=1010X

Я не знаю ни одного учебника или статьи, в которой явно обсуждается эта проблема, но я ранее объяснил это в контексте линейного дискриминантного анализа (LDA), который также дает ряд некоррелированных проекций на векторы неортогональной единицы веса, см. Здесь : Доля объясненной дисперсии в PCA и LDA .


Спасибо и да, это имеет смысл. Я не знал, что векторы нагрузки (веса) не ортогональны. Таким образом, он не фиксирует максимальную дисперсию X. Следуя примеру с matlab, вы можете мне помочь, как я могу математически получить значения «PCTVAR» ?.
Ресс

Я не уверен, но я могу думать об этом. Первый столбец в PCTVAR(процент дисперсии объяснен в X) не согласуется с вашими расчетами? Или вы спрашиваете о втором столбце (процент отклонения объяснен у)? В общем, если вы хотите заняться математикой PLS, я предлагаю вам начать читать статью Rosipal & Kramer и перейти по ссылкам.
амеба
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.