Методы расчета факторных оценок и что такое матрица «коэффициентов оценки» в PCA или факторный анализ?

Насколько я понимаю, в PCA, основанном на корреляциях, мы получаем фактор (= основной компонент в данном случае) нагрузки, которые являются ничем иным, как корреляцией между переменными и факторами. Теперь, когда мне нужно сгенерировать факторные оценки в SPSS, я могу напрямую получить факторные оценки каждого респондента для каждого фактора. Я также заметил, что если я умножу « матрицу коэффициентов компонентных баллов » (созданную SPSS) на стандартизированные исходные переменные, я получу те же коэффициенты, что и SPSS.

Может ли кто-нибудь помочь мне понять, как рассчитывается «матрица коэффициентов для оценки компонентов» или «матрица коэффициентов для оценки факторов», с помощью которой я могу вычислять оценки факторов или компонентов? Чем отличаются разные методы вычисления коэффициентов факторов в этой матрице?

spss pca factor-analysis

— Картикея Пандей
источник

Формула приведена, например, здесь stats.stackexchange.com/a/92512/3277 .

— ttnphns

@amoeba, если кто-то делает PCA, слово «коэффициент оценки» означает «оценка компонента», они эквивалентны. См. Нижнюю часть связанного ответа выше - в модели PCA формула, которая чаще всего используется для вычисления коэффициентов в FA, дает точные (стандартизированные) оценки компонентов.

— ttnphns

SPSS отображает вы матрица коэффициентов , а также сохраняет (стандартизированные) оценки , как новые переменные, добавляющим их в наборе данных исходных переменных . ОП - я думаю - стандартизировал и затем умножил . И, вуаля, это то, что SPSS добавлено в набор данных! Итак, вопрос ОП в том, что вау! следующий за "как был вычислен?"

B

$\bf B$

X

$\bf X$

X

$\bf X$

X B

$\bf XB$

B

$\bf B$

— ttnphns

@ttnphs вы правильно поняли, что я имел в виду. Но моя проблема в том, что я предполагал, что, если я использую XB для прогнозирования фактора socre каждого наблюдения, тогда B должен был быть факторной нагрузкой, но в SPSS это «матрица коэффициентов оценки компонента», а не «повернутая загрузка фактора», поэтому Я хотел понять взаимосвязь или разницу между «повернутым коэффициентом загрузки» и «матрицей коэффициентов компонента».

— Картикея Пандей

Итак, как я понял из ссылки, я просто хочу один раз убедиться, что если A - это повернутая загрузка коэффициента, то (Inverse (A)) '- это «матрица коэффициентов оценки компонента», которую также можно рассчитать с помощью формулы A⋅diag. Обратное ((собственные значения))

— Картикея Пандей

Методы расчета коэффициентов / компонентных баллов

После серии комментариев я решил, наконец, выдать ответ (на основе комментариев и многое другое). Речь идет о вычислении оценок компонентов в PCA и факторных оценок в факторном анализе.

Факторные / компонентные оценки задаются как , где - анализируемые переменные ( центрированы, если PCA / факторный анализ основан на ковариациях, или z-стандартизированы, если он основан на корреляциях). - матрица коэффициента / компонента (или веса) . Как можно оценить эти веса? $\bf \hat{F}=XB$ $\bf X$ $\bf B$

нотация

$\bf R$ - p x pматрица переменных (элементарных) корреляций или ковариаций, в зависимости от того, был ли проанализирован фактор / PCA.

$\bf P$ - p x mматрица факторных / компонентных нагрузок . Это могут быть нагрузки после извлечения (часто также обозначаемые ), при которых латенты являются ортогональными или практически такими же, или нагрузки после вращения, ортогональные или наклонные. Если вращение было наклонным , это должны быть загрузки шаблона . $\bf A$

$\bf C$ - m x mматрица корреляций между факторами / компонентами после их (нагрузок) наклонного вращения. Если вращение или ортогональное вращение не выполнялось, это единичная матрица.

$\bf \hat R$ - p x pприведенная матрица воспроизводимых корреляций / ковариаций, ( для ортогональных решений), она содержит сообщества на своей диагонали. $\bf = PCP'$ $\bf = PP'$

$\bf U_2$ - p x pдиагональная матрица уникальностей (уникальность + = диагональный элемент ). Я использую «2» в качестве нижнего индекса здесь вместо верхнего индекса ( ) для удобства чтения в формулах. $\bf R$ $\bf U^2$

$\bf R^*$ - p x pполная матрица воспроизводимых корреляций / ковариаций, . $\bf = \hat R + U_2$

$\bf M^+$ - псевдообратная матрица ; если полный ранг, . $\bf M$ $\bf M$ $\bf M^+ = (M'M)^{-1}M'$

$\bf M^{power}$ - для некоторой квадратно-симметричной матрицы его возведение в равно собственному разложению , поднятию собственных значений до мощности и составлению обратно: . $\bf M$ $power$ $\bf HKH'=M$ $\bf M^{power}=HK^{power}H'$

Грубый метод вычисления коэффициентов / компонентных оценок

Этот популярный / традиционный подход, иногда называемый Cattell's, просто усредняет (или суммирует) значения элементов, которые загружаются одним и тем же фактором. Математически это равносильно установке весов при вычислении баллов . Существует три основных варианта подхода: 1) использовать загрузки как есть; 2) Дихотомизируйте их (1 = загружено, 0 = не загружено); 3) Используйте нагрузки как они есть, но обнуляйте нагрузки меньше, чем какой-либо порог. $\bf B=P$ $\bf \hat{F}=XB$

Часто при таком подходе, когда элементы находятся в одной и той же шкале, значения используются просто как необработанные; хотя, чтобы не нарушать логику факторинга, лучше использовать поскольку он входит в факторинг - стандартизированный (= анализ корреляций) или центрированный (= анализ ковариаций). $\bf X$ $\bf X$

Основным недостатком грубого метода подсчета баллов по факторам / компонентам, на мой взгляд, является то, что он не учитывает корреляции между загруженными элементами. Если элементы, загруженные каким-либо фактором, тесно коррелируют, а один загружается сильнее, чем другой, последний можно разумно считать младшим дубликатом, а его вес можно уменьшить. Усовершенствованные методы делают это, но грубый метод не может.

Грубые оценки, конечно, легко вычислить, потому что не требуется инверсия матриц. Преимущество грубого метода (объясняющего, почему он все еще широко используется, несмотря на доступность компьютеров) состоит в том, что он дает оценки, которые являются более стабильными от выборки к выборке, когда выборка не идеальна (в смысле репрезентативности и размера), или элементы для анализ не был хорошо выбран. Приведу одну статью: «Метод суммарной оценки может быть наиболее желателен, когда шкалы, используемые для сбора исходных данных, не проверены и не проверены, практически не имеют доказательств надежности или достоверности». Кроме того , не обязательно понимать «фактор» обязательно как одномерную скрытую сущность, как этого требует модель факторного анализа ( см. , См.). Вы можете, например, концептуализировать фактор как совокупность явлений - тогда разумно суммировать значения элементов.

Уточненные методы вычисления коэффициентов / компонентных оценок

Эти методы - то, что делают пакеты факторного анализа. Они оценивают различными методами. В то время как нагрузки или являются коэффициентами линейных комбинаций для прогнозирования переменных по факторам / компонентам, являются коэффициентами для вычисления коэффициентов / компонентов по переменным. $\bf B$ $\bf A$ $\bf P$ $\bf B$

Баллы, вычисленные с помощью , масштабируются: они имеют дисперсии, равные или близкие к 1 (стандартизированные или почти стандартизированные), а не истинные дисперсии фактора (которые равны сумме нагрузок на квадраты конструкции, см. Сноску 3 здесь ). Поэтому, когда вам нужно предоставить факторные оценки с дисперсией истинного фактора, умножьте оценки (стандартизировав их до st.dev. 1) на квадратный корень этой дисперсии. $\bf B$

Вы можете сохранить из анализа , проведенного, чтобы быть в состоянии вычислить оценки для новых ближайших наблюдений . Кроме того, может использоваться для взвешивания предметов, составляющих шкалу вопросника, когда шкала разработана или подтверждена с помощью факторного анализа. (Квадрат) коэффициенты могут быть интерпретированы как вклад предметов в факторы. Коэффициенты могут быть стандартизированы как коэффициент регрессии стандартизирован $\bf B$ $\bf X$ $\bf B$ $\bf B$ (где), чтобы сравнить вклады элементов с различными отклонениями. $\beta=b \frac{\sigma_{item}}{\sigma_{factor}}$ $\sigma_{factor}=1$

См. Пример, показывающий вычисления, выполненные в PCA и в FA, включая вычисление оценок из матрицы коэффициентов оценки.

Геометрическое объяснение нагрузок 's (в виде перпендикулярных координат) и балльных коэффициентов ' s (перекос координат) в настройках PCA представлено на первых двух рисунках здесь . $a$ $b$

Теперь к изысканным методам.

Методы

Вычисление в PCA $\bf B$

Когда нагрузки компонентов извлекаются, но не вращаются, , где - диагональная матрица, состоящая из собственных значений; эта формула сводится к простому делению каждого столбца на соответствующее собственное значение - дисперсию компонента. $\bf B= AL^{-1}$ $\bf L$ m $\bf A$

Эквивалентно, . Эта формула верна и для компонентов (нагрузок), повернутых, ортогонально (например, варимакс) или наклонно. $\bf B= (P^+)'$

Некоторые из методов, использованных в факторном анализе (см. Ниже), если применяются в PCA, дают тот же результат.

Вычисленные оценки компонентов имеют отклонения 1, и они представляют собой истинные стандартизированные значения компонентов .

То, что в анализе статистических данных называется матрицей коэффициентов главных компонент , и если она рассчитывается по полной, а не повернутой матрице нагрузки, то в литературе по машинному обучению часто обозначается (основанная на PCA) матрица отбеливания , а стандартизованные главные компоненты распознаются как «отбеленные» данные. $\bf B$ p x p

Вычисление в анализе общего фактора $\bf B$

В отличие от оценок компонентов, факторные оценки никогда не бывают точными ; они являются лишь приближением к неизвестным истинным значениям факторов. Это потому, что мы не знаем значений общностей или уникальностей на уровне случая, поскольку факторы, в отличие от компонентов, являются внешними переменными, отделенными от явных, и имеют свое собственное, неизвестное нам распределение. Что является причиной неопределенности этого фактора . Обратите внимание, что проблема неопределенности логически не зависит от качества факторного решения: сколько фактора является истинным (соответствует скрытому тому, что генерирует данные в популяции), является другой проблемой, чем то, сколько оценок респондента фактора (точные оценки) извлеченного фактора). $\bf F$

Поскольку факторные оценки являются приблизительными, существуют альтернативные методы для их вычисления и конкуренции.

Регрессионный или метод Тёрстона или Томпсона для оценки факторных баллов задается как , где - матрица структурных нагрузок (для решений с ортогональными факторами мы знаем ). Основа метода регрессии в сноске . $\bf B=R^{-1} PC = R^{-1} S$ $\bf S=PC$ $\bf A=P=S$ $^1$

Заметка. Эта формула для применима и к PCA: в PCA она даст тот же результат, что и формулы, приведенные в предыдущем разделе. $\bf B$

В FA (не PCA) регрессионно рассчитанные коэффициенты будут выглядеть не совсем «стандартизированными» - будут иметь отклонения не 1, а равные регрессии этих показателей с помощью переменных. Это значение может быть интерпретировано как степень определения фактора (его истинно неизвестные значения) по переменным - R-квадрат прогнозирования ими реального фактора, а метод регрессии максимизирует его, - «достоверность» вычисленного баллы. Рисунокпоказывает геометрию. (Обратите вниманиечто $\frac {SS_{regr}}{(n-1)}$ $^2$ будет равно дисперсии баллов для любого уточненного метода, но только для метода регрессии эта величина будет равна пропорции определения истинного f. значения по ф. баллы.) $\frac {SS_{regr}}{(n-1)}$

В качестве варианта регрессионного метода можно использовать вместо в формуле. Это оправдано тем, что в хорошем факторном анализе и очень похожи. Однако, когда их нет, особенно когда число факторов меньше, чем истинное количество населения, метод дает сильный сдвиг в оценках. И вам не следует использовать этот метод «воспроизводимой R-регрессии» с PCA. $\bf R^*$ $\bf R$ $\bf R$ $\bf R^*$ m

$\bf \hat R$ $\bf R$ $\bf B= (P^+)'$ $\bf C$

$\bf \hat X = FP'$ $\bf F= (P^+)' \hat X$ $\bf X$ $\bf \hat X$ $\bf F$ $\bf \hat F$ $\bf X$

Обратите внимание, что этот метод не передает оценки компонентов PCA для оценок факторов, потому что используемые нагрузки являются не нагрузками PCA, а факторным анализом '; только то, что вычислительный подход для оценки отражает то, что в PCA.

$\bf B'=(P'U_2^{-1}P)^{-1} P' U_2^{-1}$ p

$\bf B'=(P'U_2^{-1}RU_2^{-1}P)^{-1/2} P'U_2^{-1}$

$\bf B= R^{-1/2} GH' C^{1/2}$ $\bf G$ $\bf H$ $\text{svd} \bf (R^{1/2}U_2^{-1}PC^{1/2}) = G \Delta H'$ m $\bf G$

$\bf G$ $\bf H$ $\text{svd} \bf (R^{-1/2}PC^{3/2}) = G \Delta H'$ m $\bf G$

Krijnen et al метод . Этот метод является обобщением, которое объединяет оба предыдущих в одной формуле. Это, вероятно, не добавляет каких-либо новых или важных новых функций, поэтому я не рассматриваю это.

Сравнение изысканных методов .

Метод регрессии максимизирует корреляцию между оценками фактора и неизвестными истинными значениями этого фактора (то есть максимизирует статистическую достоверность ), но оценки несколько смещены, и они несколько некорректно коррелируют между факторами (например, они коррелируют, даже когда факторы в решении ортогональны). Это оценки наименьших квадратов.
Метод PCA также наименьших квадратов, но с меньшей статистической достоверностью. Они быстрее вычисляются; они не часто используются в факторном анализе в наше время из-за компьютеров. (В PCA этот метод является родным и оптимальным.)
$\bf X$
Оценки Андерсона-Рубина / Макдональда-Андерсона-Рубина и Грина называются сохраняющими корреляцию, поскольку они рассчитываются для точной корреляции с показателями факторов других факторов. Корреляции между факторными показателями равны корреляциям между факторами в решении (например, в ортогональном решении, например, оценки будут совершенно некоррелированными). Но оценки несколько предвзяты, и их обоснованность может быть скромной.

Проверьте эту таблицу тоже:

[Примечание для пользователей SPSS: если вы выполняете PCA (метод извлечения «главных компонентов»), но оценки факторов запроса отличны от метода «регрессии», программа игнорирует запрос и вместо этого вычисляет вам оценки «регрессии» (которые являются точными оценка по компонентам).]

Ссылки

Грайс, Джеймс В. Вычисление и оценка факторных показателей // Психологические методы 2001, Vol. 6, № 4, 430-450.
DiStefano, Christine et al. Понимание и использование факторных показателей // Практическая оценка, исследование и оценка, том 14, № 20
Ten Berge, Jos MFet al. Некоторые новые результаты о методах прогнозирования коэффициентов, сохраняющих корреляционные коэффициенты // Линейная алгебра и ее приложения 289 (1999) 311-318.
Мулайк, Стэнли А. Основы факторного анализа, 2-е издание, 2009
Харман, Гарри Х. Современный факторный анализ, 3-е издание, 1976
Нойдекер, Хайнц. О наилучшем аффинном непредвзятом прогнозирующем сохранении ковариации факторных баллов // СОРТ 28 (1) январь-июнь 2004, 27-36

$^1$ $F=b_1X_1+b_2X_2$ $s_1$ $s_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$

$s_2=b_1r_{12}+b_2r_{22}$

$r$ $X$ $\bf s=Rb$ $F$ $b$ $r$ $s$

$^2$

введите описание изображения здесь

— ttnphns
источник

Хороший ответ, проголосовал! Просто хотел сказать, что я впечатлен вашими знаниями в области статистики в целом и факторного анализа в частности. Будем рады связи с вами в LinkedIn и других социальных сетях. Кстати, к вашему сведению: ссылка на сайт вашей компании в вашем профиле не работает.

— Александр Блех

X

$\bf X$

F A

$\bf F \bf A$

F

$\bf F$

R^{- 1} A

$\bf R^{-1} \bf A$

(I + A^{⊤} U^{- 2} A)^{- 1} A^{⊤} U^{- 2}

$(\bf I + \bf A^\top \bf U^{-2} \bf A)^{-1} \bf A^\top \bf U^{-2}$

I

$\bf I$

@amoeba, я добавил немного информации к ответу относительно вашего первого комментария. Для вашего второго комментария - извините, я думаю, что не могу ответить на него, не копаясь в книгах. Если вы найдете ответ самостоятельно, пожалуйста, проясните его для аудитории. :-)

— ttnphns

Удивительное обновление @ttnphns, отличная работа. Я заметил, что этот поток был просмотрен 13k раз, он должен занимать высокое место в некоторых популярных поиске Google.

— говорит амеба: восстанови Монику

-2

Для проведения PCA в метеорологии коэффициенты корреляции получают с использованием либо коэффициента корреляции Пирсона (если переменные находятся в разных единицах, так как он позволяет стандартизировать данные, чтобы их можно было сравнивать напрямую без каких-либо расхождений из-за различий в размерах / величине между данными, таким образом, коэффициенты корреляции могут просто сравнивать степень дисперсии вокруг среднего значения для каждого набора данных и между каждым набором данных.В противном случае, если все данные измеряются с использованием одной и той же единицы, можно использовать ковариационный метод. SPSS делает это легко.

— Ekta
источник

Это совершенно непонятно - каким образом ответ связан с вопросом (т. Е. Вычислением оценок компонентов / факторов)?

— ttnphns

\underset{n \times p}{Y} = {\underset{p \times p}{E}}^{T} \underset{p \times n}{Z}

$\underset{n\times p}{\bf{Y}} = \underset{p\times p}{\bf{E}}^T \underset{p\times n}{\bf{Z}}$