Я должен уменьшить количество переменных, чтобы провести кластерный анализ. Мои переменные сильно коррелированы, поэтому я подумал о проведении анализа факторов риска PCA (анализ основных компонентов). Однако, если я использую полученные результаты, мои кластеры не совсем корректны (по сравнению с предыдущими классификациями в литературе).
Вопрос:
Могу ли я использовать матрицу вращения для выбора переменных с наибольшей нагрузкой для каждого компонента / фактора и использовать только эти переменные для моей кластеризации?
Любые библиографические ссылки также будут полезны.
Обновить:
Некоторые уточнения:
Моя цель: мне нужно провести анализ кластеров с помощью двухшагового алгоритма SPSS, но мои переменные не являются независимыми, поэтому я подумал об отбрасывании некоторых из них.
Мой набор данных: я работаю с 15 скалярными параметрами (моими переменными) из 100 000 случаев. Некоторые переменные сильно коррелированы ( Пирсона)
Мое сомнение: поскольку мне нужны только независимые переменные, я подумал запустить Анализ главных компонентов (извините: я неправильно говорил о Факторном анализе в своем первоначальном вопросе, моей ошибке) и выбирал только переменные с наибольшей нагрузкой для каждого компонента. Я знаю, что процесс PCA представляет некоторые произвольные шаги, но я обнаружил, что этот выбор фактически похож на « метод B4 », предложенный IT Jolliffe (1972 и 2002) для выбора переменных и предложенный также JR King & DA Jackson в 1999 ,
Поэтому я подумал выбрать таким образом несколько подгрупп независимых переменных. Затем я буду использовать группы для запуска другого кластерного анализа и сравню результаты.