Визуализация миллиона, выпуск PCA


31

Можно ли визуализировать результаты анализа основных компонентов способами, которые дают больше понимания, чем просто сводные таблицы? Возможно ли это сделать, когда число наблюдений велико, скажем, ~ 1e4? И возможно ли это сделать в R [приветствуются другие среды]?


2
Несколько вопросов: сколько у вас компонентов? Помимо размера выборки, есть ли что-то, что заставляет отображение этого вывода PCA отличаться от отображения других непрерывных переменных, с которыми можно иметь дело? Вы пытаетесь сопоставить оценки разных групп, и если да, то сколько? Вообще, чего вы надеетесь достичь с помощью своих дисплеев?
rolando2

Ответы:


53

Biplot является полезным инструментом для визуализации результатов PCA. Это позволяет одновременно визуализировать оценки и направления основных компонентов. С 10 000 наблюдений вы, вероятно, столкнетесь с проблемой чрезмерного построения графика. Альфа-смешение может помочь там.

Вот компьютерный набор данных Wine из репозитория UCI ML :

ПК-биплот данных Wine из репозитория UCI ML

Точки соответствуют баллам ПК1 и ПК2 каждого наблюдения. Стрелки представляют корреляцию переменных с ПК1 и ПК2. Белый кружок указывает теоретическую максимальную степень стрелок. Эллипсы - это 68% эллипсов данных для каждого из 3 сортов вина в данных.

Я сделал код для создания этого графика доступным здесь .


5
Действительно динамитное дополнение.
rolando2

1

п×2ВВВT

В

4

Участок Вахтера может помочь вам визуализировать собственные значения вашего PCA. По сути, это график QQ собственных значений против распределения Марченко-Пастура. У меня есть пример: График Вахтера, показывающий единственное доминантное собственное значениеесть одно доминирующее собственное значение, которое выходит за пределы распределения Марченко-Пастура. Полезность такого рода сюжета зависит от вашего приложения.


7
Было бы полезно узнать больше здесь (возможно, некоторые дополнительные объяснения и / или некоторые полезные ссылки). Что такое распределение Марченко-Пастура? Как это связано с PCA? Что это значит для ваших результатов, если оно имеет или нет? (и т. д.)
gung - Восстановить Монику

0

Вы также можете использовать пакет психики.

Он содержит метод plot.factor, который будет отображать различные компоненты друг против друга в стиле матрицы рассеяния.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.