PCA и пропорции объяснены


91

В общем, что подразумевается под тем, чтобы сказать, что доля дисперсии в анализе, подобном PCA, объясняется первым основным компонентом? Может ли кто-то объяснить это интуитивно, но также дать точное математическое определение того, что означает «объяснение отклонений» в терминах анализа главных компонентов (PCA)?x

Для простой линейной регрессии r-квадрат линии наилучшего соответствия всегда описывается как пропорция объясненной дисперсии, но я также не уверен, что с этим делать. Является ли здесь соотношение отклонений только продолжением отклонения точек от линии наилучшего соответствия?


Ответы:


105

В случае PCA «дисперсия» означает суммарную дисперсию или многомерную изменчивость или общую изменчивость или общую изменчивость . Ниже ковариационная матрица из 3 переменных. Их дисперсии находятся на диагонали, а сумма 3 значений (3.448) является общей изменчивостью.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Теперь PCA заменяет исходные переменные новыми переменными, называемыми главными компонентами, которые являются ортогональными (то есть имеют нулевые ковариации) и имеют дисперсии (называемые собственными значениями) в порядке убывания. Итак, ковариационная матрица между основными компонентами, извлеченными из приведенных выше данных, такова:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Обратите внимание, что диагональная сумма по-прежнему составляет 3,448, что говорит о том, что все 3 компонента учитывают всю многомерную переменность. Первый основной компонент составляет или «объясняет» 1.651 / 3.448 = 47.9% от общей изменчивости; второй объясняет 1,220 / 3,448 = 35,4%; третий объясняет .577 / 3.448 = 16,7% от этого.

Итак, что они имеют в виду, когда говорят, что « PCA максимизирует дисперсию » или « PCA объясняет максимальную дисперсию »? Это, конечно, не то, что он находит наибольшую дисперсию среди трех значений 1.343730519 .619205620 1.485549631, нет. PCA находит в пространстве данных измерение (направление) с наибольшей дисперсией из общей дисперсии 1.343730519+.619205620+1.485549631 = 3.448. Это самая большая разница будет 1.651354285. Затем он находит размер второй по величине дисперсии, ортогональной первой, из оставшейся 3.448-1.651354285общей дисперсии. Это второе измерение будет 1.220288343дисперсией. И так далее. Последнее остающееся измерение - .576843142дисперсия. Смотрите также «Pt3» здесь и отличный ответ здесь объясняя, как это делается более подробно.

Математически PCA выполняется через функции линейной алгебры, называемые собственным разложением или svd-разложением. Эти функции будут возвращать вам все собственные значения 1.651354285 1.220288343 .576843142(и соответствующие собственные векторы) одновременно ( см. , См. ).


1
Что вы имеете в виду: «Обратите внимание, что диагональная сумма по-прежнему составляет 3,448, что говорит о том, что все 3 компонента учитывают всю многомерную изменчивость», и в чем разница между вашим методом и PoV (пропорцией вариации)?
Камачи

2
Я не предлагаю никакого «метода». Я только что объяснил, что все ПК учитывают тот же общий объем изменчивости, что и исходные переменные.
ttnphns

Можете ли вы проверить мой вопрос: stats.stackexchange.com/questions/44464/…
kamaci

Я извиняюсь :-( Я в настоящее время не могу. Слишком много комментариев, чтобы настроиться.
ttnphns

1
если вы просто прочитаете вопрос, этого достаточно. В комментариях ничего нет.
Камачи

11

@ttnphns дал хороший ответ, возможно, я могу добавить несколько моментов. Во-первых, я хочу отметить, что на резюме был актуальный вопрос с очень сильным ответом - вы определенно хотите его проверить. В дальнейшем я буду ссылаться на графики, показанные в этом ответе.

Все три графика отображают одинаковые данные. Обратите внимание, что данные изменчивы как по вертикали, так и по горизонтали, но мы можем думать, что большая часть изменчивости фактически является диагональной . На третьем графике эта длинная черная диагональная линия является первым собственным вектором (или первым компонентом принципа), а длина этого основного компонента (разброс данных вдоль этой линии - на самом деле не длина самой линии, которая просто нарисован на сюжете) это первое собственное значение- это сумма отклонений, учитываемых первым основным компонентом. Если бы вы суммировали эту длину с длиной второго основного компонента (которая является шириной разброса данных, ортогонально от этой диагональной линии), а затем поделили любое из собственных значений на эту сумму, вы бы получили процент дисперсии приходится на соответствующий основной компонент.

С другой стороны, чтобы понять процент дисперсии, учитываемой в регрессии, вы можете взглянуть на верхний график. В этом случае красная линия является линией регрессии или набором прогнозируемых значений из модели. Объясненную дисперсию можно понимать как отношение вертикального разброса линии регрессии (то есть от самой низкой точки на линии к самой высокой точке на линии) к вертикальному разбросу данных (то есть от самой низкой точки данных до самой высокой точки данных). Конечно, это всего лишь дурная идея, потому что буквально это диапазоны, а не отклонения, но это должно помочь вам понять смысл.

Обязательно прочитайте вопрос. И, хотя я ссылался на верхний ответ, некоторые из приведенных ответов превосходны. Это стоит вашего времени, чтобы прочитать их все.


3

Существует очень простой, прямой и точный математический ответ на исходный вопрос.

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

В этом смысле вы можете интерпретировать первый ПК как максимизатор «объясненная дисперсия» или, точнее, максимизатор «объясненная полная дисперсия».

bi=c×aic0

Ссылки на оригинальную литературу и расширения см.

Westfall, PH, Arias, AL, и Fulton, LV (2017). Обучение основных компонентов с использованием корреляций, многомерное поведенческое исследование, 52, 648-660.


0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


Вы должны проверить свою формулу для дисперсии Y: это не правильно. Что еще более важно, попытка объяснения регрессии неправильно характеризует PCA и то, как люди думают об этом и используют его.
whuber

1
Ты, исправлена ​​ошибка в формуле. Мой ответ на вторую часть вопроса, касающуюся доли дисперсии, объясняемой линией регрессии.
Молодой
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.