Каковы основные оценки компонентов?


71

Ответы:


66

Во-первых, давайте определимся с оценкой.

Джон, Майк и Кейт получают следующие проценты за экзамены по математике, естествознанию, английскому языку и музыке следующим образом:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

В этом случае всего 12 баллов. Каждый балл представляет результаты экзамена для каждого человека по определенному предмету. Таким образом, оценка в этом случае - просто представление о том, где пересекаются строка и столбец.

Теперь давайте неофициально определим главный компонент.

В таблице выше, вы можете легко представить данные в 2D-графике? Нет, потому что есть четыре предмета (что означает четыре переменные: математика, естествознание, английский и музыка), то есть:

  • Вы можете нарисовать два предмета точно так же, как с координатами и на двухмерном графике.уxy
  • Вы могли бы даже нарисовать три объекта так же, как вы бы изобразили , и на трехмерном графике (хотя это, как правило, плохая практика, потому что некоторые искажения неизбежны при двумерном представлении трехмерных данных).y zxyz

Но как бы вы нарисовали 4 предмета?

На данный момент у нас есть четыре переменные, каждая из которых представляет только один предмет. Таким образом, метод может заключаться в том, чтобы каким-то образом объединить предметы в две новые переменные, которые мы затем можем построить. Это известно как многомерное масштабирование .

Анализ главных компонентов является формой многомерного масштабирования. Это линейное преобразование переменных в пространство меньшего размера, которые сохраняют максимальное количество информации о переменных. Например, это будет означать, что мы могли бы посмотреть на типы предметов, к которым каждый студент, возможно, больше подходит.

Следовательно, основным компонентом является комбинация исходных переменных после линейного преобразования. В R это:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

Что даст вам что-то вроде этого (первые два основных компонента только для простоты):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

Первый столбец здесь показывает коэффициенты линейной комбинации, которая определяет главный компонент # 1, а второй столбец показывает коэффициенты для главного компонента # 2.

Так что же такое оценка основного компонента?

Это оценка из таблицы в конце этого поста (см. Ниже).

Вышеуказанный вывод R означает, что теперь мы можем построить оценку каждого человека по всем предметам на двухмерном графике следующим образом. Во-первых, нам нужно отцентрировать исходные переменные, которые означает мой столбец вычитания:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

А затем для формирования линейных комбинаций, чтобы получить баллы ПК1 и ПК2 :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

Что упрощает до:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

В приведенной выше таблице шесть основных компонентов . Теперь вы можете отобразить баллы на двухмерном графике, чтобы получить представление о типах предметов, к которым каждый студент, возможно, больше подходит.

Тот же результат можно получить в R, набрав prcomp(DF, scale = FALSE)$x.

РЕДАКТИРОВАТЬ 1: Хм, я, вероятно, мог бы придумать лучший пример, и это больше, чем то, что я привел здесь, но я надеюсь, что вы поняли идею.

РЕДАКТИРОВАТЬ 2: полная благодарность @drpaulbrewer за его комментарий по улучшению этого ответа.


10
Усилия заслуживают похвалы - НО - ни ПК1, ни ПК2 не говорят вам, кто лучше всех по всем предметам. Для этого все предметные коэффициенты ПК должны быть положительными. PC1 имеет положительный вес для математики и музыки, но отрицательный для науки и английского языка. PC2 имеет положительный вес для математики и английского языка, но отрицательный для науки и музыки. Персонажи говорят вам, где находится самая большая разница в наборе данных. Таким образом, взвешивая предметы по коэффициентам в ПК1 и используя их для оценки учеников, вы получаете наибольшую разницу или разброс в поведении учеников. Он может классифицировать типы, но не производительность.
Пол

+1 хороший комментарий, ура. Вы, конечно, правы, я должен был написать это лучше и теперь отредактировал оскорбительную строку, чтобы прояснить это, я надеюсь.
Тони Бреял

Вы можете стандартизировать переменные, следовательно, рассчитать сумму, чтобы увидеть, кто лучше или, если хотите, в R:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa

2
@JohnPrior Четыре переменные (столбцы) - это математика, естествознание, английский и музыка, а строки представляют отдельных лиц. Термин «субъект» временами становится двусмысленным, потому что пять лет назад я выбрал ужасный пример для ответа.
Тони Бреял

1
@ Тони, я пошел дальше и отредактировал твой ответ, чтобы отцентрировать переменные, прежде чем вычислять баллы. Теперь вычисленные баллы соответствуют тому, что prcompвыводит. До этого не было.
говорит амеба, восстанови Монику

23

Анализ основных компонентов (PCA) - это один из популярных подходов к анализу отклонений, когда вы работаете с многомерными данными. У вас есть случайные переменные X1, X2, ... Xn, которые все (положительно или отрицательно) коррелируют в разной степени, и вы хотите лучше понять, что происходит. Спс может помочь.

PCA дает вам замену переменной на Y1, Y2, ..., Yn (т. Е. То же количество переменных), которые являются линейными комбинациями X. Например, у вас может быть Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...

Хорошее свойство Ys, что каждый из них имеет нулевую корреляцию друг с другом. Более того, вы получаете их в порядке убывания дисперсии. Таким образом, Y1 «объясняет» большую часть дисперсии исходных переменных, Y2 немного меньше и так далее. Обычно после первых нескольких Ys переменные становятся несколько бессмысленными. Оценка PCA для любого Си - это просто коэффициент в каждом из Ys. В моем предыдущем примере оценка для X2 в первом главном компоненте (Y1) составляет 1,76.

PCA выполняет эту магию путем вычисления собственных векторов ковариационной матрицы.

Чтобы привести конкретный пример, представьте, что X1, ... X10 - это изменения доходности казначейских облигаций за 1 год, 2 года, ..., 10 лет за некоторый период времени. Когда вы вычисляете PCA, вы, как правило, обнаруживаете, что первый компонент имеет оценки для каждой связи того же знака и примерно того же знака. Это говорит о том, что большая часть различий в доходности облигаций происходит от того, что все движется одинаково: «параллельные сдвиги» вверх или вниз. Второй компонент обычно показывает «крутизна» и «сплющивание» кривой и имеет противоположные знаки для X1 и X10.


Как более высокое значение Y "объясняет" большую часть дисперсии? Это как рассчитывается PCA? Если это так, я думаю, что у меня есть еще один вопрос, чтобы отправить;)
vrish88

1
Это верно - если дисперсия ПК, скажем, 3,5, то этот ПК «объясняет» изменчивость 3,5 переменных из исходного набора. Поскольку ПК являются аддитивными, PC1 > PC2 > ... > PCnа сумма их дисперсий равна сумме дисперсий исходного набора переменных, так как PCA вычисляется по ковариационной матрице, т.е. переменные стандартизированы (SD = 1, VAR = 1).
aL3xa

6

Допустим, у вас есть облако из N точек, скажем, в 3D (которое можно перечислить в массиве 100x3). Затем анализ главных компонентов (PCA) вписывает в данные произвольно ориентированный эллипсоид. Основным компонентом оценки является длина диаметров эллипсоида.

В направлении, в котором диаметр большой, данные сильно различаются, в то время как в направлении, в котором диаметр небольшой, данные изменяются незначительно. Если вы хотите спроецировать данные Nd на двухмерную диаграмму рассеяния, вы наносите их вдоль двух крупнейших основных компонентов, потому что при таком подходе вы отображаете большую часть дисперсии в данных.


Будет ли какая-то польза или вы могли бы нанести их на трехмерный рассеянный график?
vrish88

6

Мне нравится думать о главных компонентах как о «в основном бессмысленных», пока вы на самом деле не придаете им некоторое значение. Интерпретация оценок ПК с точки зрения «реальности» - сложная задача, и не может быть единственного способа сделать это. Это зависит от того, что вы знаете о конкретных переменных, входящих в PCA, и от того, как они связаны друг с другом в терминах интерпретаций.

Что касается математики, мне нравится интерпретировать результаты ПК как координаты каждой точки относительно осей главных компонент. Так что в необработанных переменных у вас естьxi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×px¯

Таким образом, вы можете думать о собственных векторах как о том, как описать «прямые», которые описывают ПК. Затем оценки главных компонентов описывают расположение каждой точки данных на каждой прямой линии относительно «центриода» данных. Вы также можете думать о показателях ПК в сочетании с весами / собственными векторами как о серии прогнозов ранга 1 для каждой из исходных точек данных, которые имеют вид:

x^ji(k)=x¯j+zkiAkj

x^ji(k)ijk


4

Основными компонентами матрицы данных являются пары собственный вектор-значение его матрицы дисперсии-ковариации. По сути, они являются декоррелированными частями дисперсии. Каждая из них представляет собой линейную комбинацию переменных для наблюдения - предположим, что вы измеряете w, x, y, z для каждой группы объектов. Ваш первый компьютер может получиться что-то вроде

0.5w + 4x + 5y - 1.5z

Нагрузки (собственные векторы) здесь равны (0,5, 4, 5, -1,5). Оценка (собственное значение) для каждого наблюдения является результирующим значением, когда вы подставляете в наблюдаемое (w, x, y, z) и вычисляете общее количество.

Это удобно, когда вы проецируете вещи на их основные компоненты (например, для обнаружения выбросов), потому что вы просто наносите баллы на каждый из них так же, как и на любые другие данные. Это может многое рассказать о ваших данных, если большая часть дисперсии коррелируется (== на первых нескольких ПК).


Просто для ясности, когда вы говорите «предположим, что вы измеряете w, x, y, z по каждой из групп тем», вы не имеете в виду «предметы» из ответа @TonyBreyal выше, не так ли? Вы используете слово «субъекты», чтобы быть синонимом «наблюдений» / «записей» / «строк данных»?
Райан Чейз

4

i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

cY

Z1=(Z1,1,...,ZN,1

Вывод R на PCA (поддельный пример) выглядит следующим образом. PC1, PC2 ... являются основными компонентами 1, 2 ... В приведенном ниже примере показаны только первые 8 основных компонентов (из 17). Вы также можете извлечь другие элементы из PCA, такие как загрузки и оценки.

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

1
Извините, но что такое загрузки (c в вашей формуле) и как вы их определяете?
vrish88

@ vrish88 Я полагаю, что c - это «нагрузки» на собственные векторы. Насколько я понимаю, это, по сути, просто веса, которые вы даете каждой из переменных. Тим хорошо объясняет это в своем ответе.
Райан Чейз

3

Баллы основных компонентов - это группа баллов, которые получают после анализа Принципиальных компонентов (PCA). В PCA отношения между группой баллов анализируются таким образом, что создается равное количество новых «мнимых» переменных (основных компонентов). Первая из этих новых мнимых переменных максимально коррелируется со всей исходной группой переменных. Следующий является несколько менее коррелированным и так далее до тех пор, пока, если вы используете все оценки основных компонентов для прогнозирования любой заданной переменной из исходной группы, вы сможете объяснить все ее отклонения. То, как проходит PCA, является сложным и имеет определенные ограничения. Среди них есть ограничение на то, что корреляция между любыми двумя основными компонентами (то есть мнимыми переменными) равна нулю; таким образом, это не

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.