Традиционный (линейный) PCA и факторный анализ требуют данных на уровне шкалы (интервал или отношение). Зачастую данные рейтинга типа Ликерта предполагаются на уровне шкалы, поскольку такие данные легче анализировать. И решение иногда оправдывается статистически, особенно когда количество упорядоченных категорий больше 5 или 6. (Хотя чисто логически вопрос о типе данных и количестве уровней масштаба различен).
Что если вы предпочитаете рассматривать политомную шкалу Ликерта как порядковую? Или у вас есть дихотомические данные? Можно ли провести анализ факторных факторов или PCA для них?
В настоящее время существует три основных подхода к выполнению FA (включая PCA в качестве его особого случая) для категориальных порядковых или двоичных переменных (прочитайте также этот отчет о случае двоичных данных и это рассмотрение о том, что может быть сделано с порядковой шкалой).
Оптимальный подход к масштабированию (семейство приложений ). Также называется категориальным PCA (CatPCA) или нелинейным FA, В CatPCA порядковые переменные монотонно преобразуются («количественно») в их «базовые» версии интервалов с целью максимизации дисперсии, объясняемой выбранным количеством главных компонентов, извлеченных из этих данных интервалов. Что делает метод открыто ориентированным на цели (а не на теорию), и важно заранее принять решение о количестве основных компонентов. Если вместо PCA требуется истинная FA, то обычная линейная FA может, естественно, выполняться для этих преобразованных переменных, выводимых из CatPCA. С бинарными переменными CatPCA (к сожалению?) Ведет себя как обычный PCA, то есть как будто они являются непрерывными переменными. CatPCA принимает также номинальные переменные и любую смесь типов переменных (хорошо).
Предполагаемый базовый переменный подход. Также известен как PCA / FA, выполняемый на тетрахорических (для двоичных данных) или полихорических (для порядковых данных) корреляциях. Для каждой переменной манифеста предполагается нормальное распределение для базовой (затем сгруппированной) непрерывной переменной. Затем применяется классический ФА для анализа вышеуказанных корреляций. Подход легко учитывает смесь интервальных, порядковых, двоичных данных. Один из недостатков этого подхода заключается в том, что - при выводе корреляций - он не имеет никакого отношения к многомерному распределению лежащих в основе переменных, - может "представить" в большинстве случаев двумерные распределения, поэтому основывается не на полной информации.
Подход теории ответа (IRT). Иногда также называется логистической FA или анализом скрытых признаков . Применяется модель, очень близкая к модели двоичного логита (для двоичных данных) или модели пропорциональных логарифмов (для порядковых данных). Алгоритм не связан с декомпозицией корреляционной матрицы, поэтому он немного отличается от традиционной FA, но все же является истинной категориальной FA. «Параметры дискриминации» близко соответствуют нагрузкам ФА, но «трудности» заменяют понятие «уникальности» ФА. Соответствие IRT быстро уменьшается по мере роста числа факторов, что является проблемной стороной этого подхода. IRT расширяется по-своему, чтобы включить смешанный интервал + двоичные + порядковые и, возможно, номинальные переменные.
Факторные оценки в подходах (2) и (3) труднее оценить, чем факторные оценки в классической ФА или в подходе (1). Однако существует несколько методов (ожидаемые или максимальные апостериорные методы, метод максимального правдоподобия и т. Д.).
Предположения модели факторного анализа в основном совпадают в трех подходах с традиционными ФА. Подход (1) доступен в R, SPSS, SAS (на мой взгляд). Подходы (2) и (3) реализуются в основном в специализированных пакетах скрытых переменных - Mplus, LISREL, EQS.
Полиномиальный подход. Это еще не полностью разработано. Основные компоненты могут быть смоделированы как полиномиальные комбинации переменных ( использование полиномов является популярным способом моделирования нелинейных эффектов порядковых регрессоров.). Кроме того, наблюдаемые категории, в свою очередь, могут моделироваться как дискретные проявления полиномиальных комбинаций скрытых факторов.
Существует процветающее поле нелинейных методов уменьшения размерности; некоторые из них могут быть применены или приняты для работы с категориальными данными (особенно двоичными или после преобразования в двоичные данные в многомерный набор разреженных данных).
Выполнение классической (линейной) FA / PCA на ранговых корреляциях или других ассоциациях, подходящих для категориальных данных (Спирмен / Кендалл / Сомер и т.д.). В случае порядковых данных это чисто эвристический подход, не имеющий теоретических оснований и не рекомендуемый вообще. С двоичными данными корреляции Спирмена-Ро и Кендалла-тау-б и ассоциация Фи - все равны корреляции Пирсона-р, поэтому их использование - не что иное, как обычная линейная FA / PCA для двоичных данных (некоторые опасности здесь ). Также возможно (хотя и не вызывает сомнений) сделать анализ по пересчитанной по его текущей величине.р
Посмотрите также на это , это , это , это , это , это , это , это .