Раздел 3.5.2 в «Элементах статистического обучения» полезен, потому что он помещает регрессию PLS в правильный контекст (других методов регуляризации), но он действительно очень краткий и оставляет некоторые важные утверждения в качестве упражнений. Кроме того, он рассматривает только случай одномерной зависимой переменной .y
Литература по PLS обширна, но может быть довольно запутанной, поскольку существует много разных «разновидностей» PLS: одномерные версии с одним DV (PLS1) и многовариантные версии с несколькими DV Y (PLS2), симметричные версии, рассматривающие X и Y одинаково и асимметричные версии («регрессия PLS»), рассматривающие X как независимые и Y как зависимые переменные, версии, которые допускают глобальное решение через SVD, и версии, которые требуют итеративной дефляции для создания каждой следующей пары направлений PLS и т. д. и т. д.YYИксYИксY
Все это было разработано в области хемометрики и остается несколько оторванным от "основной" литературы по статистике или машинному обучению.
Обзорный документ, который я считаю наиболее полезным (и который содержит много дополнительных ссылок):
Для более теоретического обсуждения я могу порекомендовать:
Краткий учебник по регрессии PLS с одномерным (он же PLS1, он же SIMPLS)Y
Целью регрессии является оценка в линейной модели y = X β + ϵ . Решение OLS β = ( X ⊤ X ) - 1 X ⊤ y обладает многими свойствами оптимальности, но может страдать от переоснащения. Действительно, OLS ищет β, который дает максимально возможную корреляцию X β с y . Если предикторов много, то всегда можно найти некоторую линейную комбинацию, которая, как оказалось, имеет высокую корреляцию с y . Это будет ложная корреляция, и такиеβY= Xβ+ ϵβ= ( X⊤Х )- 1Икс⊤YβX βYY ,правилоуказывают в направленииобъясняющей очень мало дисперсии в X . Направления, объясняющие очень малую дисперсию, часто являются очень «шумными». Если это так, то, хотя решение OLS для тренировочных данных работает отлично, при тестировании данных оно будет работать намного хуже.βИкс
Чтобы предотвратить переоснащение, используются методы регуляризации, которые по существу заставляют указывать на направления высокой дисперсии в X (это также называется «усадкой» β ; см. Почему работает усадка? ). Одним из таких методов является регрессия главных компонентов (ПЦР), которая просто отбрасывает все направления с низкой дисперсией. Другим (лучшим) методом является регрессия гребня, которая плавно штрафует направления с малой дисперсией. Еще один метод - PLS1.βИксβ
PLS1 заменяет цель OLS нахождения которая максимизирует корреляцию corr ( X β , y ), альтернативной целью нахождения β с длиной ‖ β ‖ = 1 максимизации ковариации cov ( X β , y ) ∼ corr ( X β , y ) ⋅ √βкорр( X β, У )β∥ β∥ = 1который снова эффективно штрафует направления низкой дисперсии.
сОУ( X β, У ) ~ корр( X β, у ) ⋅ вар( X β)-------√,
Нахождение такого (назовем его β 1 ) дает первый компонент PLS z 1 = X β 1 . Далее можно искать второй (а затем третий и т. Д.) Компонент PLS, который имеет максимально возможную ковариацию с y при условии отсутствия корреляции со всеми предыдущими компонентами. Это должно быть решено итеративно, так как не существует решения в замкнутой форме для всех компонентов (направление первого компонента β 1 просто определяется как X ⊤ yββ1Z1= X β1Yβ1Икс⊤Yнормируется на единицу длины). Когда требуемое количество компонентов извлечено, регрессия PLS отбрасывает исходные предикторы и использует компоненты PLS в качестве новых предикторов; это дает некоторые их линейной комбинации , которые можно комбинировать со всеми β я с образованием конечного & beta ; P L S .βZβяβP L S
Обратите внимание, что:
- Если используются все компоненты PLS1, то PLS будет эквивалентен OLS. Таким образом, число компонентов служит параметром регуляризации: чем меньше число, тем сильнее регуляризация.
- Если предикторы некоррелированы и все имеют одинаковую дисперсию (т. Е. X был отбелен ), то существует только один компонент PLS1, и он эквивалентен OLS.ИксИкс
- Весовые векторы и β j для i ≠ j не будут ортогональными, но будут давать некоррелированные компоненты z i = X β i и z j = X β j .βяβJя ≠ jZя= X βяZJ= X βJ
Несмотря на все сказанное, мне неизвестны какие-либо практические преимущества регрессии PLS1 по сравнению с регрессией гребня (хотя последняя имеет много преимуществ: она непрерывна и не дискретна, имеет аналитическое решение, гораздо более стандартна, допускает расширения ядра и аналитику формулы для кросс-проверки ошибок одного и того же и т. д. и т. д.).
Цитируя Фрэнка и Фридмана:
RR, PCR и PLS рассматриваются в разделе 3, чтобы работать аналогичным образом. Их главная цель состоит в том, чтобы уменьшить вектор коэффициента решения от решения OLS к направлениям в пространстве переменных-предикторов с большим разбросом выборки. Видно, что ПЦР и PLS сжимаются в большей степени в сторону от направлений с низким разбросом, чем RR, что обеспечивает оптимальную усадку (среди линейных оценок) для предшествующего эквидистракции. Таким образом, PCR и PLS делают предположение, что правда, скорее всего, будет иметь конкретные преференциальные выравнивания с направлениями высокого разброса распределения предикатор-переменная (выборка). Несколько неожиданный результат состоит в том, что PLS (кроме того) помещает увеличенную массу вероятности в вектор истинного коэффициента, выравнивая направление го главного компонента, где KКК это количество используемых компонентов PLS, фактически расширяющих решение OLS в этом направлении.
Они также проводят обширное имитационное исследование и делают вывод (выделено мое):
Для ситуаций, рассматриваемых в этом исследовании, можно сделать вывод, что все смещенные методы (RR, PCR, PLS и VSS) обеспечивают существенное улучшение по сравнению с OLS. [...] Во всех ситуациях RR доминировал над всеми другими изученными методами. PLS обычно делал почти так же хорошо, как RR и обычно превосходил PCR, но не очень сильно.
Обновление: в комментариях @cbeleites (который работает в хемометрике) предлагает два возможных преимущества PLS перед RR:
λ
βR RβяYYβ1, β2,βP L S