Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?

25

Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов , модель сохраняет свою предсказательную силу на ? $Y \sim X$ $k$ $X$ $Y$

Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если $v_1, v_2, ... v_k$ являются собственными векторами ковариационной матрицы $X$ с верхними $k$ собственными значениями, то $Xv_1, Xv_2 ... Xv_k$ являются верхними $k$ главными компонентами с максимальными отклонениями. Таким образом, мы можем уменьшить число функций до $k$ и сохранить большую часть предсказательной силы, насколько я понимаю.

Но почему старшие $k$ компонентов сохраняют предсказательную силу $Y$ ?

Если говорить об общих олах $Y \sim Z$ , нет никаких оснований полагать , что если функция $Z_i$ имеет максимальную дисперсию, то $Z_i$ имеет самый прогностическую силу на $Y$ .

Обновление после просмотра комментариев: я думаю, я видел множество примеров использования PCA для уменьшения размерности. Я предполагал, что это означает, что измерения, с которыми мы остались, имеют наибольшую предсказательную силу. Иначе в чем смысл уменьшения размерности?

— вендетта
источник

3

Вы правильно: нет никакого математического основания полагать , что вершина

K

$K$ ПК из

X

$X$ имеет любую предсказательную силу - так же , как нет никакой математической причины вообще предположить , что любой набор регрессор

X

$X$ имеет никакого отношение вообще к данному

Y

$Y$ . Похоже, вы имеете в виду какое-то утверждение, с которым вы столкнулись: что именно оно говорит и кто это сказал?

— whuber

@whuber Я думаю, у меня было множество примеров использования PCA для уменьшения размеров. Я предполагал, что это означает, что измерения, с которыми мы остались, обладают самой предсказательной силой. Иначе в чем смысл уменьшения габаритов?

— Вендетта

43

Действительно, нет никакой гарантии, что главные главные компоненты (ПК) обладают большей предсказательной способностью, чем компоненты с малой дисперсией.

Примеры из реальной жизни можно найти там, где это не так, и легко создать искусственный пример, когда, например, только самый маленький ПК имеет какое-либо отношение к вообще. $y$

Эта тема много обсуждалась на нашем форуме, и в связи с (к сожалению) отсутствием одной явно канонической темы я могу привести только несколько ссылок, которые вместе предоставляют различные примеры из реальной жизни, а также искусственные примеры:

И та же тема, но в контексте классификации:

Однако, на практике, верхние ПК часто вы часто имеют более предсказательную силу , чем с низким уровнем дисперсии из них, и , кроме того, с использованием только лучшие ПК могут дать более предсказательную силу , чем при использовании всех компьютеров.

В ситуациях с большим количеством предикторов и относительно небольшим количеством точек данных (например, когда или даже ), обычная регрессия будет более подходящей и должна быть упорядочена. Регрессия основного компонента (ПЦР) может рассматриваться как один из способов регуляризации регрессии и, как правило, дает превосходные результаты. Более того, это тесно связано с регрессией гребня, которая является стандартным способом регуляризации усадки. В то время как использование регрессии гребня обычно является лучшей идеей, ПЦР часто ведет себя достаточно хорошо. См. Почему работает усадка? для общего обсуждения о смещении дисперсии и о том, как усадка может быть полезной. $p$ $n$ $p \approx n$ $p>n$

В некотором смысле можно сказать, что как регрессия гребня, так и ПЦР предполагают, что большая часть информации о содержится в больших ПК , и это предположение часто оправдано. $y$ $X$

См. Более поздний ответ @cbeleites (+1) для некоторого обсуждения того, почему это предположение часто оправдано (а также этот более новый поток: почти всегда ли уменьшение размерности полезно для классификации? Для некоторых дальнейших комментариев).

Hastie et al. в разделе «Элементы статистического обучения» (раздел 3.4.1) прокомментируйте это в контексте регрессии гребня:

[T] небольшие сингулярные значения [...] соответствуют направлениям в пространстве столбцов имеющим небольшую дисперсию, и регрессия гребня сжимает эти направления больше всего. [...] Хребет регрессии защищает от потенциально высокой дисперсии градиентов, оцениваемых в коротких направлениях. Подразумеваемое предположение состоит в том, что отклик будет иметь тенденцию к наибольшему изменению в направлениях высокой дисперсии входных данных. Часто это разумное предположение, так как предикторы часто выбираются для изучения, потому что они варьируются в зависимости от переменной отклика, но не должны соблюдаться в целом. $\mathbf X$

Смотрите мои ответы в следующих темах для деталей:

Нижняя граница

Для крупномасштабных задач предварительная обработка с PCA (что означает уменьшение размерности и сохранение только топовых ПК) может рассматриваться как один из способов регуляризации и часто улучшает результаты любого последующего анализа, будь то регрессия или метод классификации. Но нет никаких гарантий, что это сработает, и часто существуют более эффективные подходы к регуляризации.

— амеба говорит восстановить монику
источник

Спасибо за сбор ссылок в вашем ответе. Вот еще один недавний. Есть ответ с дальнейшими ссылками.

— ttnphns

Спасибо, @ttnphns! Я не видел этот пост, потому что у него не было тега [pca] (я внимательно слежу только за несколькими конкретными тегами). На самом деле, я довольно недоволен тем, что существует свободная коллекция из 5-10 тесно связанных тем, без вопросов и ответов, которые были бы действительно идеальными, и между ними нет реальных дубликатов. Я предпочел бы иметь одну каноническую нить, которая могла бы использоваться для будущих ссылок ...

— говорит амеба Reinstate Monica

Я добавил тег к этому вопросу. «Идеальный» энциклопедический ответ на эту интересную тему ждет своего автора. :-) Вы можете решить стать одним.

— ttnphns

Также актуально: ответ onetop

— kjetil b halvorsen

11

В дополнение к ответам, которые уже сосредоточены на математических свойствах, я хотел бы прокомментировать с экспериментальной точки зрения.

Резюме: процессы генерации данных часто оптимизируются таким образом, чтобы данные подходили для регрессии главных компонент (PCR) или частичных наименьших квадратов (PLS).

Я аналитик-химик. Когда я разрабатываю эксперимент / метод для измерения (регрессии или классификации) чего-либо, я использую свои знания о применении и доступных инструментах, чтобы получить данные, которые несут хорошее отношение сигнал / шум по отношению к поставленной задаче. Это означает, что сгенерированные мной данные имеют большую ковариацию со свойством интереса.
Это приводит к структуре дисперсии, где интересная дисперсия велика, и более поздние ПК будут нести только (маленький) шум.

Я бы также предпочел методы, которые дают избыточную информацию о выполняемой задаче, чтобы получить более надежные или более точные результаты. PCA концентрирует избыточные измерительные каналы в одном ПК, который затем несет большие различия и поэтому является одним из первых ПК.

Если существуют известные конфликтующие факторы, которые приведут к большой дисперсии, которая не связана с интересующим свойством, я обычно стараюсь исправить их в максимально возможной степени во время предварительной обработки данных: во многих случаях эти идентификаторы известны физическая или химическая природа, и это знание предлагает соответствующие способы исправления для нарушителей. Например, я измеряю спектры комбинационного рассеяния под микроскопом. Их интенсивность зависит от интенсивности лазерного излучения, а также от того, насколько хорошо я могу сфокусировать микроскоп. Оба приводят к изменениям, которые могут быть исправлены путем нормализации, например, сигнала, который, как известно, является постоянным.
Таким образом, крупные поставщики отклонений, которые не вносят вклад в решение, могли быть исключены до того, как данные поступили в PCA, оставляя в основном значимые различия на первых ПК.

И последнее, но не менее важное: здесь есть немного самореализующегося пророчества: очевидно, что ПЦР делается с данными, в которых допущение о большой дисперсии, несущей информацию, имеет смысл. Если, например, я думаю, что могут быть важные препятствия, которые я не знаю, как исправить, я бы сразу пошел на PLS, который лучше игнорирует большие вклады, которые не помогают с задачей прогнозирования.

— cbeleites поддерживает Монику
источник

+1. Это отличное дополнение, спасибо за участие в обсуждении.

— говорит амеба: восстанови Монику

@amoeba: спасибо за добрые слова. Как всегда, ваш ответ также очень тщательный. На самом деле я полагаюсь на то, что вы позаботитесь о [pca]!

— cbeleites поддерживает Монику

6

PCA иногда используется для исправления проблем, вызванных коллинеарными переменными, так что большая часть изменений в X-пространстве фиксируется K основными компонентами.

Но эта математическая проблема, конечно, не то же самое, что захватить большую часть вариаций в пространстве X, Y таким образом, чтобы необъяснимые вариации были как можно меньше.

Частичные наименьшие квадраты пытаются сделать это в последнем смысле:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

— Аналитик
источник

3

Как уже указывалось, нет прямой связи между верхними k собственными векторами и предсказательной силой. Выбирая вершину и используя их в качестве основы, вы сохраняете некоторую верхнюю энергию (или дисперсию вдоль этой оси).

Может быть так, что оси, объясняющие наибольшую дисперсию, на самом деле полезны для прогнозирования, но в целом это не так.

— Владислав Довгальец
источник

Когда вы говорите «в общем», вы имеете в виду вообще на практике или вообще в теории?

— говорит амеба: восстанови Монику

@amoeba В общем потому, что легко создать набор данных, в котором проецирование данных на верхнюю ось максимальной дисперсии не является прогнозирующим / дискриминационным.

— Владислав Довгальец,

-1

Позвольте мне предложить одно простое объяснение.

PCA сводится к удалению определенных функций интуитивно. Это уменьшает шансы переоснащения.

— обитатель севера
источник