В чем заключается интуитивная причина ротации в Факторном анализе / PCA и как выбрать подходящую ротацию?

Мои вопросы

Какова интуитивная причина ротации факторов в факторном анализе (или компонентов в PCA)?

Насколько я понимаю, если переменные почти одинаково загружены в верхних компонентах (или факторах), то, очевидно, трудно дифференцировать компоненты. Таким образом, в этом случае можно использовать вращение, чтобы лучше дифференцировать компоненты. Это верно?
Каковы последствия выполнения вращений? На что это влияет?
Как выбрать подходящий поворот? Есть ортогональные повороты и наклонные повороты. Как выбрать между этим и каковы последствия этого выбора?

Пожалуйста, объясните интуитивно с наименьшими математическими уравнениями. Немногие из распространенных ответов были тяжелыми по математике, но я ищу больше по интуитивным причинам и практическим правилам.

— GeorgeOfTheRF
источник

Причина поворота . Ротации выполняются для интерпретации извлеченных факторов в факторном анализе (или компонентов в PCA, если вы рискуете использовать PCA в качестве метода факторного анализа). Вы правы, когда вы описываете свое понимание. Вращение выполняется в соответствии с некоторой структурой матрицы загрузки, которую можно назвать простой структурой . Это когда разные факторы имеют тенденцию загружать разные переменные $^1$ , [Я считаю, что правильнее будет сказать, что «фактор загружает переменную», чем «переменная загружает фактор», потому что это фактор, который находится «в» или «позади» переменных, чтобы заставить их коррелировать, но вы можете сказать, что как вам нравится.] В некотором смысле, типичная простая структура - это то, где появляются «кластеры» коррелированных переменных. Затем вы интерпретируете фактор как значение, которое лежит на пересечении значения переменных, которые достаточно загружены фактором; таким образом, чтобы получить различное значение, факторы должны загружать переменные по-разному. Практическое правило заключается в том, что фактор должен прилично загружать как минимум 3 переменные.
Последствия . Вращение не меняет положение переменных относительно друг друга в пространстве факторов, т.е. корреляции между переменными сохраняются. Изменяются координаты конечных точек переменных векторов на осях фактора - нагрузки (для получения дополнительной информации ищите на этом сайте "график загрузки" и "биплот") . После ортогонального вращения матрицы нагрузки изменяются факторные дисперсии, но факторы остаются некоррелированными, а переменные сообщества сохраняются. $^2$

При наклонном вращении факторы могут потерять некоррелированность, если это даст более четкую «простую структуру». Тем не менее, интерпретация коррелированных факторов является более сложным искусством, потому что вы должны извлечь значение из одного фактора, чтобы он не загрязнил значение другого, с которым он коррелирует. Это подразумевает, что вы должны интерпретировать факторы, скажем, параллельно, а не один за другим. Косые листы вращения вы с двумя матрицами нагрузок вместо одного: шаблон матрица и структура матрица . ( , где - матрица корреляций между факторами; , где $\bf P$ $\bf S$ $\bf S=PC$ $\bf C$ $\bf C=Q'Q$ $\bf Q$ является матрицей наклонного вращения: , где была матрицей загрузки, предшествующей любому вращению.) Матрица паттернов - это матрица регрессионных весов, по которым факторы предсказывают переменные, а структурная матрица - корреляции (или ковариации) между факторами и переменными. Большую часть времени мы интерпретируем факторы по загрузкам шаблонов, потому что эти коэффициенты представляют собой уникальную индивидуальную инвестицию фактора в переменную. Наклонная вращение не сохраняет переменные общности, но общности больше не равны строки суммы квадратов в или в . Более того, поскольку факторы коррелируют, их дисперсии частично перекрывают . $\bf S=AQ$ $\bf A$ $\bf P$ $\bf S$ $^3$

Конечно, как ортогональные, так и наклонные повороты влияют на оценки факторов / компонентов, которые вы, возможно, захотите вычислить (пожалуйста, найдите «оценки факторов» на этом сайте). Ротация, по сути, дает вам другие факторы, чем те, которые вы имели сразу после извлечения . Они наследуют свою предсказательную силу (для переменных и их корреляций), но они получат другое существенное значение от вас. После поворота вы можете не сказать «этот фактор важнее этого», потому что они вращались друг относительно друга (честно говоря, в FA, в отличие от PCA, вы вряд ли можете сказать это даже после извлечения, потому что факторы моделируются как уже "важные"). $^4$
Выбор . Существует много форм ортогональных и наклонных вращений. Зачем? Во-первых, потому что понятие «простая структура» не является однозначным и может быть сформулировано несколько иначе. Например, varimax - самый популярный ортогональный метод - пытается максимизировать дисперсию среди квадратов значений нагрузок каждого фактора; иногда используемый ортогональный метод квартимакс минимизирует количество факторов, необходимых для объяснения переменной, и часто производит так называемый «общий фактор». Во-вторых, различные повороты нацелены на разные побочные цели, кроме простой структуры. Я не буду вдаваться в подробности этих сложных тем, но вы можете прочитать о них сами.

Стоит ли отдавать предпочтение ортогональному или наклонному вращению? Ну, ортогональные факторы легче интерпретировать, и вся факторная модель статистически проще (ортогональные предикторы, конечно). Но там вы навязываете ортогональность скрытым чертам, которые хотите обнаружить; Вы уверены, что они должны быть некоррелированы в области, которую вы изучаете? Что делать, если они не? Методы наклонного вращения $^5$ (хотя каждый из них имеет свои склонности) позволяет, но не заставляет факторы коррелировать, и, следовательно, менее ограничивает. Если наклонное вращение показывает, что факторы слабо коррелированы, вы можете быть уверены, что «на самом деле» это так, и тогда вы можете обратиться к ортогональному вращению с чистой совестью. Если факторы, с другой стороны, очень сильно коррелируют, это выглядит неестественно (для концептуально различных скрытых признаков, особенно если вы разрабатываете инвентаризации в психологии или , например, - напомнят , что фактор является сам по себе является одномерным черт, а не партия явлений), и вам может потребоваться извлечь меньше факторов или, в качестве альтернативы, использовать косвенные результаты в качестве источника пакета для извлечения так называемых факторов второго порядка.

$^1$ Терстон выдвинул пять идеальных условий простой структуры. Три наиболее важных из них: (1) каждая переменная должна иметь хотя бы одну нагрузку, близкую к нулю; (2) каждый фактор должен иметь нагрузку, близкую к нулю, по крайней мере для m переменных ( m - это число факторов); (3) для каждой пары факторов существует не менее m переменных с нагрузками, близкими к нулю, для одного из них и достаточно далеко от нуля для другого. Следовательно, для каждой пары факторов их график загрузки в идеале должен выглядеть примерно так:

введите описание изображения здесь

Это для чисто исследовательской ФА, в то время как если вы делаете и переделываете ФА для разработки вопросника, вы в конечном итоге захотите отбросить все точки, кроме синих, при условии, что у вас есть только два фактора. Если имеется более двух факторов, вам нужно, чтобы красные точки стали синими для графиков загрузки некоторых других факторов.

$^2$

введите описание изображения здесь

$^3$ Дисперсия фактора (или компонента) является суммой квадратов нагрузок на структуру , поскольку они являются ковариациями / корреляциями между переменными и (в единичном масштабе) факторами. После наклонного вращения факторы могут коррелироваться, и поэтому их дисперсии пересекаются. Следовательно, сумма их дисперсий, СС в , превышает общий коммунальность объяснено, SS в . Если вы хотите рассчитывать после фактора i только уникальную «чистую» часть его дисперсии, умножьте дисперсию на зависимости фактора от других факторов, величины, известной как антиизображение . Это обратная величина i-го диагонального элемента $\bf S$ $\bf S$ $\bf A$ $1-R_i^2$ $\bf C^{-1}$ , Сумма «чистых» частей отклонений будет меньше, чем объясненная общая общность.

$^4$ Вы не можете сказать, что «1-й фактор / компонент изменился во вращении тем или иным образом», потому что 1-й фактор / компонент в повернутой матрице нагрузки является другим фактором / компонентом, чем 1-й в неотвращенной матрице нагрузки. Тот же порядковый номер («1-й») вводит в заблуждение.

$^5$ Два наиболее важных наклонных метода - это promax и oblimin . Promax - это косое усиление варимакса: структура на основе варимакса затем теряется, чтобы в большей степени соответствовать «простой структуре». Это часто используется в подтверждающих FA. Облимин является очень гибким благодаря своей гамме параметров, которая при установке на 0 делает облимин методом квартимина, дающим наиболее наклонные решения. Гамма 1 дает наименее косые решения, коваримин, который является еще одним косым методом на основе варимакса, альтернативным промаксу. Все косвенные методы могут быть прямой (= первичной) и косвенной (= вторичной) версиями - см. Литературу. Все повороты, как ортогональные, так и наклонные, можно выполнить с помощью нормализации Кайзера.(обычно) или без него. Нормализация делает все переменные одинаково важными при вращении.

Некоторые темы для дальнейшего чтения:

Может ли быть причина не вращать факторы вообще?

Какую матрицу интерпретировать после наклонного вращения - шаблон или структуру?

Что означают названия методов ротации факторов (варимакс и т. Д.)?

PCA с компонентами вращается все еще PCA или это факторный анализ?

— ttnphns
источник

+1. Поскольку я видел этот вопрос, я надеялся, что вы ответите. Кстати, меня удивило, что такой вопрос здесь ранее не задавался (по крайней мере, не в такой понятной форме).

— говорит амеба, восстанови Монику

+1. Спасибо за ответ! 1) Я понимаю факторный анализ и PCA отдельно, но что вы подразумеваете под «PCA как метод анализа факторов»? PCA и FA - это две разные вещи для удовлетворения двух отдельных целей, верно? Означает ли это, что когда компоненты PCA имеют сложную структуру, я не могу использовать ротацию для упрощения?

— GeorgeOfTheRF

2) «Varimax пытается максимизировать дисперсию между нагрузками каждого фактора». Каково преимущество максимизации дисперсии между нагрузками?

— GeorgeOfTheRF

Для вашего (1) в комментариях: Да, два метода анализа разные. Тем не менее, люди иногда используют PCA для целей FA. Смотрите мой ответ и всю соответствующую ветку там. Вы можете использовать ротацию факторов в PCA точно так же, как и в тех же сетях, что и в FA. В отношении вращения нет никакой разницы.

— ttnphns

Для вашего комментария (2). Varimax максимизирует дисперсию абсолютной величины нагрузок: следовательно, факторные нагрузки для каждого фактора четко «делятся» на (абсолютно) большие и малые. Quartimax пытается сделать так, чтобы каждая переменная была загружена только одним фактором.

— ttnphns