Как интерпретировать загрузки PCA?

Читая о PCA, я натолкнулся на следующее объяснение:

Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту.

Мы находим первые два основных компонента, которые фиксируют 90% изменчивости данных и интерпретируют их загрузку. Мы заключаем, что первый главный компонент представляет общие академические способности, а второй представляет контраст между количественными способностями и речевыми способностями.

В тексте говорится, что нагрузки для ПК1 и ПК2 для ПК1 и для ПК2, и предлагает следующее объяснение: $(0.5, 0.5, 0.5, 0.5)$ $(0.5, 0.5, -0.5, -0.5)$

[T] Первый компонент пропорционален среднему баллу, а второй компонент измеряет разницу между первой парой баллов и второй парой баллов.

Я не могу понять, что означает это объяснение.

pca

— Приянка
источник

Каким-то образом ответ @ ttnphns входит во многие математические детали, но я думаю, что оригинальный вопрос был действительно простым: почему вектор нагрузок для ПК1 (0,5, 0,5, 0,5, 0,5) означает, что первый компонент «пропорционален среднему баллу» «? Ответ таков: нагрузки [пропорциональны] коэффициентам в линейной комбинации исходных переменных, составляющих PC1. Итак, ваш первый ПК1 - это сумма всех четырех переменных, умноженная на 0,5. Это означает, что оно пропорционально среднему из четырех переменных. И похоже с PC2. Я думаю, что это отвечает на оригинальный вопрос.

— говорит амеба, восстанови Монику

@amoeba - Вы знаете, как трудно встретить такое простое объяснение нагрузок. Каким-то образом, повсюду вокруг меня глоток желчи, прежде чем я решу перейти к следующему объяснению в Google. Спасибо!

— MiloMinderbinder

Нагрузки (которые не следует путать с собственными векторами) имеют следующие свойства:

Их суммы квадратов внутри каждого компонента являются собственными значениями (дисперсиями компонентов).
Нагрузки - это коэффициенты в линейной комбинации, предсказывающие переменную (стандартизированными) компонентами.

Вы извлекли 2 первых ПК из 4. Матрица нагрузок и собственные значения: $\bf A$

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

В этом случае оба собственных значения равны. Это редкий случай в реальном мире, он говорит, что PC1 и PC2 имеют одинаковую объяснительную «силу».

Предположим, что вы также вычислили значения компонентов, Nx2матрицу и вы z-стандартизировали (среднее = 0, st. Dev. = 1) их в каждом столбце. Тогда (как пункт 2 выше . Но, так как вы оставили только 2 ПК из 4 (вам не хватает еще 2 столбцов в ) значения Восстановленные данные не точны, - есть ошибка (если собственные значения 3, 4 не равны нулю). $\bf C$ $\bf \hat {X}=CA'$ $\bf A$ $\bf \hat {X}$

$\bf A$ 4x4 $\bf B=(A^{-1})'$ $\bf B= A \cdot diag(eigenvalues)^{-1}=(A^+)'$ diag(eigenvalues)квадратная диагональная матрица с собственными значениями на ее диагонали, а +верхний индекс обозначает псевдообратную. В твоем случае:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

$\bf X$ Nx4 $\bf C=XB$ $\bf C$

ПК1 = 0,5 * Х1 + 0,5 * Х2 + 0,5 * Х3 + 0,5 * Х4 ~ (Х1 + Х2 + Х3 + Х4) / 4

«Первый компонент пропорционален среднему баллу»

ПК2 = 0,5 * Х1 + 0,5 * Х2 - 0,5 * Х3 - 0,5 * Х4 = (0,5 * Х1 + 0,5 * Х2) - (0,5 * Х3 + 0,5 * Х4)

«второй компонент измеряет разницу между первой парой баллов и второй парой баллов»

$\bf B=A$

$\bf B= A \cdot diag(eigenvalues)^{-1}$ $\bf B=R^{-1}A$ $\bf R$ быть ковариационной (или корреляционной) матрицей переменных. Последняя формула исходит непосредственно из теории линейной регрессии. Две формулы эквивалентны только в контексте PCA. В факторном анализе это не так, и для вычисления факторных баллов (которые всегда являются приблизительными в FA) следует полагаться на вторую формулу.

Связанные ответы моих:

Подробнее о нагрузках против собственных векторов .

Как вычисляются оценки основных компонентов и факторов .

— ttnphns
источник

Если на 2 компонента из 4 приходится 90% изменчивости, то почему их собственные значения равны 2?

— Ник Кокс

Ник, я считаю, что это вопрос к ОП. Он не дал данных или матрицы ковариации / корреляции. Все, что мы получили от него, - это (довольно нереальная) матрица загрузки двух первых компьютеров.

— ttnphns

4 \times 4

$4\times4$

4

$4$

1

$1$

50 %

$50\%$

90 %

$90\%$