Могу ли я использовать PCA для выбора переменных для кластерного анализа?


12

Я должен уменьшить количество переменных, чтобы провести кластерный анализ. Мои переменные сильно коррелированы, поэтому я подумал о проведении анализа факторов риска PCA (анализ основных компонентов). Однако, если я использую полученные результаты, мои кластеры не совсем корректны (по сравнению с предыдущими классификациями в литературе).

Вопрос:

Могу ли я использовать матрицу вращения для выбора переменных с наибольшей нагрузкой для каждого компонента / фактора и использовать только эти переменные для моей кластеризации?

Любые библиографические ссылки также будут полезны.

Обновить:

Некоторые уточнения:

  • Моя цель: мне нужно провести анализ кластеров с помощью двухшагового алгоритма SPSS, но мои переменные не являются независимыми, поэтому я подумал об отбрасывании некоторых из них.

  • Мой набор данных: я работаю с 15 скалярными параметрами (моими переменными) из 100 000 случаев. Некоторые переменные сильно коррелированы ( Пирсона)>0.9

  • Мое сомнение: поскольку мне нужны только независимые переменные, я подумал запустить Анализ главных компонентов (извините: я неправильно говорил о Факторном анализе в своем первоначальном вопросе, моей ошибке) и выбирал только переменные с наибольшей нагрузкой для каждого компонента. Я знаю, что процесс PCA представляет некоторые произвольные шаги, но я обнаружил, что этот выбор фактически похож на « метод B4 », предложенный IT Jolliffe (1972 и 2002) для выбора переменных и предложенный также JR King & DA Jackson в 1999 ,

    Поэтому я подумал выбрать таким образом несколько подгрупп независимых переменных. Затем я буду использовать группы для запуска другого кластерного анализа и сравню результаты.


1
Если вы знаете правильный ответ, зачем вообще анализ?
StasK

1
С другой стороны, почему вы считаете, что вам нужно уменьшить количество переменных для кластерного анализа? Я не думаю, что какой-либо из современных инструментов кластерного анализа имеет какие-либо ограничения в отношении количества входных переменных. Конечно, если у вас есть тест с 120 предметами, с ним все будет сложно.
StasK


Мне кажется, что добавление аспекта кластерного анализа этого Q делает его достаточно четким, чтобы оставаться открытым.
gung - Восстановить Монику

Вы, кажется, применяете более строгие критерии к дубликатам, чем я, @gung; возможно, вы правы (и голосование по этому вопросу тоже не проходит). Однако в этом конкретном случае OP спрашивал о простейшем выборе функций на основе PCA (как пояснено в его обновлении), который описан в предложенной мной теме. С другой стороны, StasK разместил здесь интересный ответ, который конкретно о кластеризации ...
говорит амеба Восстановить Монику

Ответы:


7

Я, как обычно, сделаю шаг назад и спрошу, что именно вы пытаетесь сделать. Факторный анализ предназначен для поиска скрытых переменных. Если вы хотите найти скрытые переменные и сгруппировать их, то то, что вы делаете, правильно. Но вы говорите, что просто хотите уменьшить количество переменных - вместо этого предлагается анализ основных компонентов.

Однако с любым из них вы должны интерпретировать кластерный анализ новых переменных, и эти новые переменные являются просто взвешенными суммами старых.

Сколько у вас переменных? Насколько они коррелированы? Если их слишком много, и они очень сильно коррелированы, то вы можете найти все корреляции по очень высокому числу и случайно удалить одну переменную из каждой пары. Это уменьшает количество переменных и оставляет переменные такими, какие они есть.

Позвольте мне также повторить @StasK о необходимости сделать это вообще и @ rolando2 о полезности поиска чего-то отличного от того, что было найдено ранее. Как говорил мой любимый профессор в аспирантуре: «Если ты не удивлен, ты ничему не научился».


1
Прежде всего, я прошу прощения: я на самом деле имею в виду ошибку «Основные компоненты», а не факторный анализ. Более того, я искал способ не выбирать произвольно коррелированную переменную, которую я буду хранить. Я добавляю больше информации о проблеме выше .. еще раз спасибо
en.

5

Способ выполнить факторный анализ и кластерный анализ одновременно - через модели структурных уравнений. В этих моделях вы постулируете, что для каждого кластера существуют отдельные модели (в данном случае, факторные модели). Вам нужно будет провести анализ среднего значения вместе с ковариационным анализом и уделить внимание идентификации в большей степени, чем при анализе простого ванильного фактора. Идея, приближенная со стороны SEM, появляется в Jedidi et. и др. (1997) , и со стороны кластеризации, в основанной на модели кластеризации Адрианом Рэфтери . Этот тип анализа, по-видимому, доступен в Mplus .


1
Спасибо за вводные данные, особенно за ссылки, но я ошибочно сослался на Факторный анализ: я на самом деле думал о главных компонентах, чтобы свести мои переменные к подгруппе независимых переменных. моя ошибка
ан.

2

Я не думаю, что это вопрос «правильности», чистый и простой, а скорее вопрос, достигнет ли он того, что вы хотите сделать. Подход, который вы описываете, в конечном итоге будет кластеризован в соответствии с определенными факторами в более размытом виде, поскольку вы будете использовать только один индикатор для представления каждого фактора. Каждый такой показатель является несовершенным заменителем скрытого фактора. Это одна проблема.

Другая проблема заключается в том, что сам факторный анализ, как я (и многие другие), описал , полон субъективных решений, касающихся того, как обращаться с недостающими данными, количеством извлекаемых факторов, как извлекать, следует ли и как вращать, и так далее. на. Таким образом, может быть далеко не ясно, что факторы, которые вы, возможно, извлекли быстрым, программным способом по умолчанию (как я думаю, вы подразумевали), являются «лучшими» в любом смысле.

Таким образом, в целом, вы, возможно, использовали смягченные версии факторов, которые сами по себе являются дискуссионными, поскольку являются наилучшим способом охарактеризовать темы, лежащие в основе ваших данных. Я не ожидал бы, что кластеры, являющиеся результатом таких входных переменных, будут наиболее информативными или самыми отчетливыми.

С другой стороны, кажется интересным, что вы считаете проблемой наличие членства / профилей в кластере, которые не соответствуют тому, что нашли другие исследователи. Иногда опровержение результатов может быть очень полезным!


Большое спасибо, я добавил больше информации выше, чтобы уточнить мои сомнения
ru.

0

В вашем случае может произойти то, что факторы, извлеченные в Факторном анализе, имеют компенсирующие положительные и отрицательные нагрузки от исходных переменных. Это уменьшит дифференцируемость, которая является целью кластеризации.

Можете ли вы разбить каждый извлеченный фактор на 2 - один имеет только положительные нагрузки, а другой только отрицательные нагрузки?

Замените оценки факторов для каждого случая для каждого фактора положительными оценками и отрицательными оценками и попробуйте сгруппировать этот новый набор оценок.

Пожалуйста, напишите в строке, если это работает для вас.


0

Вы можете сканировать как на высокие значения, так и на низкие значения и оставить все переменные в факторах. Таким образом, нет необходимости сокращать факторы. Если вы разделите Фактор 1 (скажем) определенным образом на основе признаков нагрузок, то в Факторе 2 эти знаки могут быть совершенно другими. Тогда вы бы сократили Фактор 2 иначе, чем Фактор 1? Это кажется запутанным.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.