Методы расчета коэффициентов / компонентных баллов
После серии комментариев я решил, наконец, выдать ответ (на основе комментариев и многое другое). Речь идет о вычислении оценок компонентов в PCA и факторных оценок в факторном анализе.
Факторные / компонентные оценки задаются как , где - анализируемые переменные ( центрированы, если PCA / факторный анализ основан на ковариациях, или z-стандартизированы, если он основан на корреляциях). - матрица коэффициента / компонента (или веса) . Как можно оценить эти веса?ХБF^= X BИксВ
нотация
р - p x p
матрица переменных (элементарных) корреляций или ковариаций, в зависимости от того, был ли проанализирован фактор / PCA.
Aп - p x m
матрица факторных / компонентных нагрузок . Это могут быть нагрузки после извлечения (часто также обозначаемые ), при которых латенты являются ортогональными или практически такими же, или нагрузки после вращения, ортогональные или наклонные. Если вращение было наклонным , это должны быть загрузки шаблона .A
С - m x m
матрица корреляций между факторами / компонентами после их (нагрузок) наклонного вращения. Если вращение или ортогональное вращение не выполнялось, это единичная матрица.
=РСР'=РР'р^ - p x p
приведенная матрица воспроизводимых корреляций / ковариаций, ( для ортогональных решений), она содержит сообщества на своей диагонали.= P C P'= P P'
R U 2U2 - p x p
диагональная матрица уникальностей (уникальность + = диагональный элемент ). Я использую «2» в качестве нижнего индекса здесь вместо верхнего индекса ( ) для удобства чтения в формулах.рU2
= R + U 2р* - p x p
полная матрица воспроизводимых корреляций / ковариаций, .= R^+ U2
M M M + = ( M ′ M ) - 1 M ′M+ - псевдообратная матрица ; если полный ранг, .MMM+= ( М'М )- 1M'
М р о ж е г H K H ' = М М р о ж е г = Н К р о ж е р Н 'Mр о ж е г - для некоторой квадратно-симметричной матрицы его возведение в равно собственному разложению , поднятию собственных значений до мощности и составлению обратно: .Mр о ж е гH K H'= МMр о ж е г= H Kр о ж е гЧАС'
Грубый метод вычисления коэффициентов / компонентных оценок
Этот популярный / традиционный подход, иногда называемый Cattell's, просто усредняет (или суммирует) значения элементов, которые загружаются одним и тем же фактором. Математически это равносильно установке весов при вычислении баллов . Существует три основных варианта подхода: 1) использовать загрузки как есть; 2) Дихотомизируйте их (1 = загружено, 0 = не загружено); 3) Используйте нагрузки как они есть, но обнуляйте нагрузки меньше, чем какой-либо порог.Р = Х БB = PF^= X B
Часто при таком подходе, когда элементы находятся в одной и той же шкале, значения используются просто как необработанные; хотя, чтобы не нарушать логику факторинга, лучше использовать X, поскольку он входит в факторинг - стандартизированный (= анализ корреляций) или центрированный (= анализ ковариаций).ИксИкс
Основным недостатком грубого метода подсчета баллов по факторам / компонентам, на мой взгляд, является то, что он не учитывает корреляции между загруженными элементами. Если элементы, загруженные каким-либо фактором, тесно коррелируют, а один загружается сильнее, чем другой, последний можно разумно считать младшим дубликатом, а его вес можно уменьшить. Усовершенствованные методы делают это, но грубый метод не может.
Грубые оценки, конечно, легко вычислить, потому что не требуется инверсия матриц. Преимущество грубого метода (объясняющего, почему он все еще широко используется, несмотря на доступность компьютеров) состоит в том, что он дает оценки, которые являются более стабильными от выборки к выборке, когда выборка не идеальна (в смысле репрезентативности и размера), или элементы для анализ не был хорошо выбран. Приведу одну статью: «Метод суммарной оценки может быть наиболее желателен, когда шкалы, используемые для сбора исходных данных, не проверены и не проверены, практически не имеют доказательств надежности или достоверности». Кроме того , не обязательно понимать «фактор» обязательно как одномерную скрытую сущность, как этого требует модель факторного анализа ( см. , См.). Вы можете, например, концептуализировать фактор как совокупность явлений - тогда разумно суммировать значения элементов.
Уточненные методы вычисления коэффициентов / компонентных оценок
Эти методы - то, что делают пакеты факторного анализа. Они оценивают различными методами. В то время как нагрузки A или P являются коэффициентами линейных комбинаций для прогнозирования переменных по факторам / компонентам, B являются коэффициентами для вычисления коэффициентов / компонентов по переменным.ВAпВ
Баллы, вычисленные с помощью , масштабируются: они имеют дисперсии, равные или близкие к 1 (стандартизированные или почти стандартизированные), а не истинные дисперсии фактора (которые равны сумме нагрузок на квадраты конструкции, см. Сноску 3 здесь ). Поэтому, когда вам нужно предоставить факторные оценки с дисперсией истинного фактора, умножьте оценки (стандартизировав их до st.dev. 1) на квадратный корень этой дисперсии.В
Вы можете сохранить из анализа , проведенного, чтобы быть в состоянии вычислить оценки для новых ближайших наблюдений X . Кроме того, B может использоваться для взвешивания предметов, составляющих шкалу вопросника, когда шкала разработана или подтверждена с помощью факторного анализа. (Квадрат) коэффициенты B могут быть интерпретированы как вклад предметов в факторы. Коэффициенты могут быть стандартизированы как коэффициент регрессии стандартизирован β = b σ i t e mВИксВВ (гдеσfactor=1), чтобы сравнить вклады элементов с различными отклонениями.βзнак равно b σя т е мσес т о гσес то г= 1
См. Пример, показывающий вычисления, выполненные в PCA и в FA, включая вычисление оценок из матрицы коэффициентов оценки.
Геометрическое объяснение нагрузок 's (в виде перпендикулярных координат) и балльных коэффициентов ' s (перекос координат) в настройках PCA представлено на первых двух рисунках здесь .aб
Теперь к изысканным методам.
Методы
Вычисление в PCAВ
Когда нагрузки компонентов извлекаются, но не вращаются, , где L - диагональная матрица, состоящая из собственных значений; эта формула сводится к простому делению каждого столбца A на соответствующее собственное значение - дисперсию компонента.B = A L- 1Lm
A
Эквивалентно, . Эта формула верна и для компонентов (нагрузок), повернутых, ортогонально (например, варимакс) или наклонно.B =( P+)'
Некоторые из методов, использованных в факторном анализе (см. Ниже), если применяются в PCA, дают тот же результат.
Вычисленные оценки компонентов имеют отклонения 1, и они представляют собой истинные стандартизированные значения компонентов .
То, что в анализе статистических данных называется матрицей коэффициентов главных компонент , и если она рассчитывается по полной, а не повернутой матрице нагрузки, то в литературе по машинному обучению часто обозначается (основанная на PCA) матрица отбеливания , а стандартизованные главные компоненты распознаются как «отбеленные» данные.Вp x p
Вычисление в анализе общего фактораВ
В отличие от оценок компонентов, факторные оценки никогда не бывают точными ; они являются лишь приближением к неизвестным истинным значениям факторов. Это потому, что мы не знаем значений общностей или уникальностей на уровне случая, поскольку факторы, в отличие от компонентов, являются внешними переменными, отделенными от явных, и имеют свое собственное, неизвестное нам распределение. Что является причиной неопределенности этого фактора . Обратите внимание, что проблема неопределенности логически не зависит от качества факторного решения: сколько фактора является истинным (соответствует скрытому тому, что генерирует данные в популяции), является другой проблемой, чем то, сколько оценок респондента фактора (точные оценки) извлеченного фактора).F
Поскольку факторные оценки являются приблизительными, существуют альтернативные методы для их вычисления и конкуренции.
Регрессионный или метод Тёрстона или Томпсона для оценки факторных баллов задается как , где S = P C - матрица структурных нагрузок (для решений с ортогональными факторами мы знаем A = P = S ). Основа метода регрессии в сноске 1 .B = R- 1P C = R- 1SS = P CA = P = S1
Заметка. Эта формула для применима и к PCA: в PCA она даст тот же результат, что и формулы, приведенные в предыдущем разделе.В
В FA (не PCA) регрессионно рассчитанные коэффициенты будут выглядеть не совсем «стандартизированными» - будут иметь отклонения не 1, а равные регрессии этих показателей с помощью переменных. Это значение может быть интерпретировано как степень определения фактора (его истинно неизвестные значения) по переменным - R-квадрат прогнозирования ими реального фактора, а метод регрессии максимизирует его, - «достоверность» вычисленного баллы. Рисунок2показывает геометрию. (Обратите вниманиечтоSS г й г гSSг е гр( n - 1 )2 будет равно дисперсии баллов для любого уточненного метода, но только для метода регрессии эта величина будет равна пропорции определения истинного f. значения по ф. баллы.)SSг е гр( n - 1 )
В качестве варианта регрессионного метода можно использовать вместо R в формуле. Это оправдано тем, что в хорошем факторном анализе R и R ∗ очень похожи. Однако, когда их нет, особенно когда число факторов меньше, чем истинное количество населения, метод дает сильный сдвиг в оценках. И вам не следует использовать этот метод «воспроизводимой R-регрессии» с PCA.р*ррр*m
р^рB = ( P+)'С
Икс^= F P'F = ( P+)'Икс^ИксИкс^FF^Икс
Обратите внимание, что этот метод не передает оценки компонентов PCA для оценок факторов, потому что используемые нагрузки являются не нагрузками PCA, а факторным анализом '; только то, что вычислительный подход для оценки отражает то, что в PCA.
В'= ( P'U- 12П )- 1п'U- 12p
В'= ( P'U- 12R U- 12П )- 1 / 2п'U- 12
B = R- 1 / 2G H'С1 / 2граммЧАСсвд ( р1 / 2U- 12P C1 / 2) = G Δ H'm
грамм
граммЧАСсвд ( р- 1 / 2P C3 / 2) = G Δ H'm
грамм
Krijnen et al метод . Этот метод является обобщением, которое объединяет оба предыдущих в одной формуле. Это, вероятно, не добавляет каких-либо новых или важных новых функций, поэтому я не рассматриваю это.
Сравнение изысканных методов .
Метод регрессии максимизирует корреляцию между оценками фактора и неизвестными истинными значениями этого фактора (то есть максимизирует статистическую достоверность ), но оценки несколько смещены, и они несколько некорректно коррелируют между факторами (например, они коррелируют, даже когда факторы в решении ортогональны). Это оценки наименьших квадратов.
Метод PCA также наименьших квадратов, но с меньшей статистической достоверностью. Они быстрее вычисляются; они не часто используются в факторном анализе в наше время из-за компьютеров. (В PCA этот метод является родным и оптимальным.)
Икс
Оценки Андерсона-Рубина / Макдональда-Андерсона-Рубина и Грина называются сохраняющими корреляцию, поскольку они рассчитываются для точной корреляции с показателями факторов других факторов. Корреляции между факторными показателями равны корреляциям между факторами в решении (например, в ортогональном решении, например, оценки будут совершенно некоррелированными). Но оценки несколько предвзяты, и их обоснованность может быть скромной.
Проверьте эту таблицу тоже:
[Примечание для пользователей SPSS: если вы выполняете PCA (метод извлечения «главных компонентов»), но оценки факторов запроса отличны от метода «регрессии», программа игнорирует запрос и вместо этого вычисляет вам оценки «регрессии» (которые являются точными оценка по компонентам).]
Ссылки
Грайс, Джеймс В. Вычисление и оценка факторных показателей // Психологические методы 2001, Vol. 6, № 4, 430-450.
DiStefano, Christine et al. Понимание и использование факторных показателей // Практическая оценка, исследование и оценка, том 14, № 20
Ten Berge, Jos MFet al. Некоторые новые результаты о методах прогнозирования коэффициентов, сохраняющих корреляционные коэффициенты // Линейная алгебра и ее приложения 289 (1999) 311-318.
Мулайк, Стэнли А. Основы факторного анализа, 2-е издание, 2009
Харман, Гарри Х. Современный факторный анализ, 3-е издание, 1976
Нойдекер, Хайнц. О наилучшем аффинном непредвзятом прогнозирующем сохранении ковариации факторных баллов // СОРТ 28 (1) январь-июнь 2004, 27-36
1F= б1Икс1+ б2Икс2s1s2F
s1= б1р11+ б2р12
s2= б1р12+ б2р22
рИксs = R bFбрs
2