Выбор «подходящего» количества компонентов в PCA можно элегантно выполнить с помощью параллельного анализа Хорна (PA). Документы показывают, что этот критерий последовательно превосходит эмпирические правила, такие как критерий локтя или правило Кайзера. Пакет R "paran" имеет реализацию PA, для которой требуется всего пара щелчков мышью.
Конечно, сколько компонентов вы сохраняете, зависит от целей сокращения данных. Если вы хотите сохранить «значимое» отклонение, PA даст оптимальное сокращение. Однако если вы хотите свести к минимуму потерю информации в исходных данных, вам следует сохранить достаточно компонентов, чтобы покрыть 95% объясненную разницу. Это, очевидно, сохранит гораздо больше компонентов, чем PA, хотя для многомерных наборов данных уменьшение размерности все равно будет значительным.
Последнее замечание о PCA как проблеме «выбора модели». Я не полностью согласен с ответом Питера. Было много работ, которые переформулировали PCA как проблему типа регрессии, например, Sparse PCA, Sparse Probabilistic PCA или ScotLASS. В этих «основанных на модели» решениях PCA нагрузки являются параметрами, которые могут быть установлены в 0 с соответствующими штрафными терминами. Предположительно, в этом контексте также было бы возможно рассчитать статистику типа AIC или BIC для рассматриваемой модели.
Этот подход теоретически может включать модель, в которой, например, два ПК не ограничены (все нагрузки не равны нулю), в отличие от модели, в которой ПК1 не ограничен, а ПК2 имеет все нагрузки, равные 0. Это будет эквивалентно выводу, является ли ПК2 избыточным. в целом.
Рекомендации (PA) :
- Динно А. (2012). paran: тест Горна на основные компоненты / факторы. Версия пакета R 1.5.1. http://CRAN.R-project.org/package=paran
- Хорн Дж. Л. 1965. Обоснование и проверка количества факторов в факторном анализе. Психометрика . 30: 179–185
- Хаббард Р. и Аллен С.Дж. (1987). Эмпирическое сравнение альтернативных методов извлечения основных компонентов. Журнал Бизнес исследований, 15 , 173-190.
- Цвик, WR & Velicer, WF 1986. Сравнение пяти правил для определения количества компонентов для сохранения. Психологический вестник. 99 : 432–442