Каковы основные компоненты оценки (ПК баллы, PCA баллы)?
Каковы основные компоненты оценки (ПК баллы, PCA баллы)?
Ответы:
Во-первых, давайте определимся с оценкой.
Джон, Майк и Кейт получают следующие проценты за экзамены по математике, естествознанию, английскому языку и музыке следующим образом:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
В этом случае всего 12 баллов. Каждый балл представляет результаты экзамена для каждого человека по определенному предмету. Таким образом, оценка в этом случае - просто представление о том, где пересекаются строка и столбец.
Теперь давайте неофициально определим главный компонент.
В таблице выше, вы можете легко представить данные в 2D-графике? Нет, потому что есть четыре предмета (что означает четыре переменные: математика, естествознание, английский и музыка), то есть:
Но как бы вы нарисовали 4 предмета?
На данный момент у нас есть четыре переменные, каждая из которых представляет только один предмет. Таким образом, метод может заключаться в том, чтобы каким-то образом объединить предметы в две новые переменные, которые мы затем можем построить. Это известно как многомерное масштабирование .
Анализ главных компонентов является формой многомерного масштабирования. Это линейное преобразование переменных в пространство меньшего размера, которые сохраняют максимальное количество информации о переменных. Например, это будет означать, что мы могли бы посмотреть на типы предметов, к которым каждый студент, возможно, больше подходит.
Следовательно, основным компонентом является комбинация исходных переменных после линейного преобразования. В R это:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
Что даст вам что-то вроде этого (первые два основных компонента только для простоты):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
Первый столбец здесь показывает коэффициенты линейной комбинации, которая определяет главный компонент # 1, а второй столбец показывает коэффициенты для главного компонента # 2.
Так что же такое оценка основного компонента?
Это оценка из таблицы в конце этого поста (см. Ниже).
Вышеуказанный вывод R означает, что теперь мы можем построить оценку каждого человека по всем предметам на двухмерном графике следующим образом. Во-первых, нам нужно отцентрировать исходные переменные, которые означает мой столбец вычитания:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
А затем для формирования линейных комбинаций, чтобы получить баллы ПК1 и ПК2 :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
Что упрощает до:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
В приведенной выше таблице шесть основных компонентов . Теперь вы можете отобразить баллы на двухмерном графике, чтобы получить представление о типах предметов, к которым каждый студент, возможно, больше подходит.
Тот же результат можно получить в R, набрав prcomp(DF, scale = FALSE)$x
.
РЕДАКТИРОВАТЬ 1: Хм, я, вероятно, мог бы придумать лучший пример, и это больше, чем то, что я привел здесь, но я надеюсь, что вы поняли идею.
РЕДАКТИРОВАТЬ 2: полная благодарность @drpaulbrewer за его комментарий по улучшению этого ответа.
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
выводит. До этого не было.
Анализ основных компонентов (PCA) - это один из популярных подходов к анализу отклонений, когда вы работаете с многомерными данными. У вас есть случайные переменные X1, X2, ... Xn, которые все (положительно или отрицательно) коррелируют в разной степени, и вы хотите лучше понять, что происходит. Спс может помочь.
PCA дает вам замену переменной на Y1, Y2, ..., Yn (т. Е. То же количество переменных), которые являются линейными комбинациями X. Например, у вас может быть Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...
Хорошее свойство Ys, что каждый из них имеет нулевую корреляцию друг с другом. Более того, вы получаете их в порядке убывания дисперсии. Таким образом, Y1 «объясняет» большую часть дисперсии исходных переменных, Y2 немного меньше и так далее. Обычно после первых нескольких Ys переменные становятся несколько бессмысленными. Оценка PCA для любого Си - это просто коэффициент в каждом из Ys. В моем предыдущем примере оценка для X2 в первом главном компоненте (Y1) составляет 1,76.
PCA выполняет эту магию путем вычисления собственных векторов ковариационной матрицы.
Чтобы привести конкретный пример, представьте, что X1, ... X10 - это изменения доходности казначейских облигаций за 1 год, 2 года, ..., 10 лет за некоторый период времени. Когда вы вычисляете PCA, вы, как правило, обнаруживаете, что первый компонент имеет оценки для каждой связи того же знака и примерно того же знака. Это говорит о том, что большая часть различий в доходности облигаций происходит от того, что все движется одинаково: «параллельные сдвиги» вверх или вниз. Второй компонент обычно показывает «крутизна» и «сплющивание» кривой и имеет противоположные знаки для X1 и X10.
PC1 > PC2 > ... > PCn
а сумма их дисперсий равна сумме дисперсий исходного набора переменных, так как PCA вычисляется по ковариационной матрице, т.е. переменные стандартизированы (SD = 1, VAR = 1).
Допустим, у вас есть облако из N точек, скажем, в 3D (которое можно перечислить в массиве 100x3). Затем анализ главных компонентов (PCA) вписывает в данные произвольно ориентированный эллипсоид. Основным компонентом оценки является длина диаметров эллипсоида.
В направлении, в котором диаметр большой, данные сильно различаются, в то время как в направлении, в котором диаметр небольшой, данные изменяются незначительно. Если вы хотите спроецировать данные Nd на двухмерную диаграмму рассеяния, вы наносите их вдоль двух крупнейших основных компонентов, потому что при таком подходе вы отображаете большую часть дисперсии в данных.
Мне нравится думать о главных компонентах как о «в основном бессмысленных», пока вы на самом деле не придаете им некоторое значение. Интерпретация оценок ПК с точки зрения «реальности» - сложная задача, и не может быть единственного способа сделать это. Это зависит от того, что вы знаете о конкретных переменных, входящих в PCA, и от того, как они связаны друг с другом в терминах интерпретаций.
Что касается математики, мне нравится интерпретировать результаты ПК как координаты каждой точки относительно осей главных компонент. Так что в необработанных переменных у вас есть
Таким образом, вы можете думать о собственных векторах как о том, как описать «прямые», которые описывают ПК. Затем оценки главных компонентов описывают расположение каждой точки данных на каждой прямой линии относительно «центриода» данных. Вы также можете думать о показателях ПК в сочетании с весами / собственными векторами как о серии прогнозов ранга 1 для каждой из исходных точек данных, которые имеют вид:
Основными компонентами матрицы данных являются пары собственный вектор-значение его матрицы дисперсии-ковариации. По сути, они являются декоррелированными частями дисперсии. Каждая из них представляет собой линейную комбинацию переменных для наблюдения - предположим, что вы измеряете w, x, y, z для каждой группы объектов. Ваш первый компьютер может получиться что-то вроде
0.5w + 4x + 5y - 1.5z
Нагрузки (собственные векторы) здесь равны (0,5, 4, 5, -1,5). Оценка (собственное значение) для каждого наблюдения является результирующим значением, когда вы подставляете в наблюдаемое (w, x, y, z) и вычисляете общее количество.
Это удобно, когда вы проецируете вещи на их основные компоненты (например, для обнаружения выбросов), потому что вы просто наносите баллы на каждый из них так же, как и на любые другие данные. Это может многое рассказать о ваших данных, если большая часть дисперсии коррелируется (== на первых нескольких ПК).
Вывод R на PCA (поддельный пример) выглядит следующим образом. PC1, PC2 ... являются основными компонентами 1, 2 ... В приведенном ниже примере показаны только первые 8 основных компонентов (из 17). Вы также можете извлечь другие элементы из PCA, такие как загрузки и оценки.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
Баллы основных компонентов - это группа баллов, которые получают после анализа Принципиальных компонентов (PCA). В PCA отношения между группой баллов анализируются таким образом, что создается равное количество новых «мнимых» переменных (основных компонентов). Первая из этих новых мнимых переменных максимально коррелируется со всей исходной группой переменных. Следующий является несколько менее коррелированным и так далее до тех пор, пока, если вы используете все оценки основных компонентов для прогнозирования любой заданной переменной из исходной группы, вы сможете объяснить все ее отклонения. То, как проходит PCA, является сложным и имеет определенные ограничения. Среди них есть ограничение на то, что корреляция между любыми двумя основными компонентами (то есть мнимыми переменными) равна нулю; таким образом, это не