Я аспирант в области компьютерных наук. Я проводил некоторый исследовательский анализ факторов для исследовательского проекта. Мои коллеги (которые возглавляют проект) используют SPSS, а я предпочитаю использовать R. Это не имело значения, пока мы не обнаружили существенное расхождение между двумя статистическими пакетами.
Мы используем фактор главной оси в качестве метода извлечения (обратите внимание, что я хорошо знаю разницу между PCA и факторным анализом и что мы не используем PCA , по крайней мере, намеренно). Из того, что я прочитал, это должно соответствовать методу «основной оси» в R, и как «главная ось факторинг» или «невзвешенный наименьших квадратов» в SPSS, в соответствии с R документации . Мы используем метод наклонного вращения (в частности, promax ), потому что мы ожидаем коррелированные факторы и интерпретируем матрицу паттернов .
Выполнение двух процедур в R и SPSS, есть серьезные различия. Матрица паттернов дает разные нагрузки. Хотя это дает более или менее один и тот же коэффициент для переменных соотношений, разница между соответствующими нагрузками составляет до 0,15, что кажется больше, чем можно было бы ожидать только при другой реализации метода извлечения и вращения Promax. Однако это не самая поразительная разница.
Суммарная дисперсия, объясняемая факторами, составляет около 40% в результатах SPSS и 31% в результатах R. Это огромная разница, и это привело к тому, что мои коллеги захотели использовать SPSS вместо R. У меня нет проблем с этим, но такая большая разница заставляет меня думать, что мы можем неправильно что-то интерпретировать, что является проблемой.
Еще больше запутывая воды, SPSS сообщает о различных типах объясненной дисперсии, когда мы запускаем невзвешенный коэффициент наименьших квадратов. Доля объясненной дисперсии по начальным собственным значениям составляет 40%, тогда как доля объясненной дисперсии из сумм извлечения квадратов нагрузок (SSL) составляет 33%. Это заставляет меня думать, что начальные собственные значения не являются подходящим числом для просмотра (я подозреваю, что это дисперсия, объясненная до вращения, хотя она настолько велика, что мне не подходит). Еще более запутанно то, что SPSS также показывает Rotation SSL, но не вычисляет процент объясненной дисперсии (SPSS говорит мне, что наличие коррелированных факторов означает, что я не могу добавить SSL, чтобы найти общую дисперсию, что имеет смысл с математикой, которую я видел). Сообщенные SSL от R не соответствуют ни одному из них, и R говорит мне, что он описывает 31% от общей дисперсии. Rs SSL наиболее точно соответствуют Rotation SSL. Собственные значения R из исходной корреляционной матрицы совпадают с начальными собственными значениями из SPSS.
Кроме того, обратите внимание, что я поиграл с использованием различных методов, и что ULS и PAF SPSS, кажется, соответствуют методу PA R ближе всего.
Мои конкретные вопросы:
- Какую разницу я должен ожидать между R и SPSS с реализациями факторного анализа?
- Какую из сумм квадратов нагрузок от SPSS я должен интерпретировать, начальные собственные значения, извлечение или вращение?
- Есть ли другие проблемы, которые я мог бы не заметить?
Мои звонки в SPSS и R следующие:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
Р:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)