В случае PCA «дисперсия» означает суммарную дисперсию или многомерную изменчивость или общую изменчивость или общую изменчивость . Ниже ковариационная матрица из 3 переменных. Их дисперсии находятся на диагонали, а сумма 3 значений (3.448) является общей изменчивостью.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Теперь PCA заменяет исходные переменные новыми переменными, называемыми главными компонентами, которые являются ортогональными (то есть имеют нулевые ковариации) и имеют дисперсии (называемые собственными значениями) в порядке убывания. Итак, ковариационная матрица между основными компонентами, извлеченными из приведенных выше данных, такова:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Обратите внимание, что диагональная сумма по-прежнему составляет 3,448, что говорит о том, что все 3 компонента учитывают всю многомерную переменность. Первый основной компонент составляет или «объясняет» 1.651 / 3.448 = 47.9% от общей изменчивости; второй объясняет 1,220 / 3,448 = 35,4%; третий объясняет .577 / 3.448 = 16,7% от этого.
Итак, что они имеют в виду, когда говорят, что « PCA максимизирует дисперсию » или « PCA объясняет максимальную дисперсию »? Это, конечно, не то, что он находит наибольшую дисперсию среди трех значений 1.343730519 .619205620 1.485549631
, нет. PCA находит в пространстве данных измерение (направление) с наибольшей дисперсией из общей дисперсии 1.343730519+.619205620+1.485549631 = 3.448
. Это самая большая разница будет 1.651354285
. Затем он находит размер второй по величине дисперсии, ортогональной первой, из оставшейся 3.448-1.651354285
общей дисперсии. Это второе измерение будет 1.220288343
дисперсией. И так далее. Последнее остающееся измерение - .576843142
дисперсия. Смотрите также «Pt3» здесь и отличный ответ здесь объясняя, как это делается более подробно.
Математически PCA выполняется через функции линейной алгебры, называемые собственным разложением или svd-разложением. Эти функции будут возвращать вам все собственные значения 1.651354285 1.220288343 .576843142
(и соответствующие собственные векторы) одновременно ( см. , См. ).