Существует много разных способов создания биплота PCA, и поэтому нет однозначного ответа на ваш вопрос. Вот краткий обзор.
Мы предполагаем, что матрица данных имеет n точек данных в строках и центрирована (т. Е. Все значения столбцов равны нулю). На данный момент мы не предполагаем, что он был стандартизирован, т.е. мы рассматриваем PCA на ковариационной матрице (не на корреляционной матрице). PCA сводится к разложению по единственному значению X = U S V ⊤ , мой ответ вы можете увидеть здесь для получения подробной информации: Отношения между SVD и PCA. Как использовать SVD для выполнения PCA?ИксN
X = U S V⊤,
В биплоте PCA два первых главных компонента изображены в виде диаграммы рассеяния, то есть первый столбец нанесен относительно его второго столбца. Но нормализация может быть другой; например, можно использовать:U
- Столбцы : это главные компоненты, масштабированные до единичной суммы квадратов;U
- Колонны : это стандартизированные главные компоненты (единичная дисперсия);n - 1-----√U
- Столбцы : это «необработанные» основные компоненты (проекции на основные направления).U S
Кроме того, исходные переменные изображены в виде стрелок; то есть координат точки я -м стрелка конечной точки задаются я -му значения в первом и втором столбце V . Но опять же, можно выбрать разные нормализации, например:( х , у)яяВ
- Столбцы : я не знаю, какая здесь может быть интерпретация;V S
- Колонны : это нагрузки;V S / N - 1-----√
- Столбцы : это главные оси (или главные направления, или собственные векторы).В
Вот как все это выглядит для набора данных Fisher Iris:
9ИксU SαβV S(1−α)/β9 являются «правильными болтами», а именно - комбинацией любого участка сверху с тем, который находится непосредственно внизу.
[Какую бы комбинацию ни использовали, может потребоваться масштабировать стрелки по некоторому произвольному постоянному коэффициенту, чтобы и стрелки, и точки данных выглядели примерно в одном масштабе.]
V S / N - 1-----√U н - 1-----√
Этот [конкретный выбор], вероятно, предоставит наиболее полезную графическую помощь в интерпретации многомерных матриц наблюдений, при условии, конечно, что они могут быть адекватно аппроксимированы на втором уровне.
U SВ
U S
biplot
UВSbiplot
0.8biplot
н / ( н - 1 )1Стрелки базовых переменных в биплоте PCA в R )
СПС на корреляционной матрице
Икс1
1R = 1
Дальнейшее чтение: