Сумма отклонений всех компонентов PLS обычно составляет менее 100%.
Существует много вариантов частичных наименьших квадратов (PLS). Здесь вы использовали PLS-регрессию одномерной переменной ответа на несколько переменных ; этот алгоритм традиционно известен как PLS1 (в отличие от других вариантов, см. Rosipal & Kramer, 2006, Overview и Недавние достижения в области частично наименьших квадратов для краткого обзора). Позже было показано, что PLS1 эквивалентен более изящной формулировке, называемой SIMPLS (см. Ссылку на Paywalled Jong 1988 в Rosipal & Kramer). Представление, предоставленное SIMPLS, помогает понять, что происходит в PLS1.yX
Оказывается, что PLS1 делает, чтобы найти последовательность линейных проекций , такую что:ti=Xwi
- Ковариантность между и максимальна;yti
- Все весовые векторы имеют единичную длину, ;∥wi∥=1
- Любые два компонента PLS (иначе векторы оценок) и не коррелированы.titj
Обратите внимание, что векторы веса не должны быть (и не являются) ортогональными.
Это означает, что если состоит из переменных и вы нашли компонентов PLS, то вы нашли неортогональный базис с некоррелированными проекциями на базисные векторы. Можно математически доказать , что в такой ситуации сумма отклонений всех этих прогнозов будет меньше , то общая дисперсия . Они были бы равны, если бы векторы весов были ортогональны (как, например, в PCA), но в PLS это не так.Xk=1010X
Я не знаю ни одного учебника или статьи, в которой явно обсуждается эта проблема, но я ранее объяснил это в контексте линейного дискриминантного анализа (LDA), который также дает ряд некоррелированных проекций на векторы неортогональной единицы веса, см. Здесь : Доля объясненной дисперсии в PCA и LDA .