Базовое, но довольно кропотливое объяснение PCA и факторного анализа с помощью диаграмм рассеяния, в логических шагах. (Я благодарю @amoeba, который в своем комментарии к этому вопросу побудил меня опубликовать ответ вместо ссылок на другие места. Так что это досуг, поздний ответ.)
PCA как суммирование переменных (извлечение признаков)
Надеюсь, у вас уже есть понимание PCA. Возродить сейчас.
V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
Эти коэффициенты являются косинусами вращения (= направляющие косинусы, главные направления) и содержат так называемые собственные векторы, в то время как собственные значения ковариационной матрицы являются дисперсиями главных компонент. В PCA мы обычно отбрасываем слабые последние компоненты: таким образом, мы суммируем данные по нескольким первым извлеченным компонентам, с небольшой потерей информации.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
С нашими построенными данными, значениями компонента P1 (оценки) P1 = .73543*V1 + .67761*V2
и компонентом P2 мы отказываемся. Дисперсия P1 является 1.75756
, то первым собственным значением матрицы ковариации, и поэтому P1 объясняет 86.5%
в общей дисперсии , которая равна (1.07652+.95534) = (1.75756+.27430)
.
PCA как переменное прогнозирование («скрытая» функция)
P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
aE
V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
Теперь, что характерно для PCA, так это то, что если мы вычислим E1 и E2 для каждой точки в данных и построим эти координаты - т.е. создадим диаграмму рассеяния только ошибок, облако «данные об ошибках» будет совпадать с отброшенным компонентом P2. И это так: облако изображено на той же картинке, что и бежевое облако, и вы видите, что оно фактически формирует ось P2 (на рис.1 ) в виде листов с оценками компонентов P2.
Не удивительно, вы можете сказать. Это так очевидно: в PCA отброшенный младший компонент (-ы) - это то, что точно разлагается (-ются) в ошибках предсказания E, в модели, которая объясняет (восстанавливает) исходные переменные V скрытой характеристикой (-ами) P1. Ошибки E вместе составляют только пропущенные компоненты. Здесь факторный анализ начинает отличаться от СПС.
Идея общего ФА (скрытая особенность)
Формально модель прогнозирования явных переменных по извлеченным скрытым признакам (ам) в FA такая же, как и в PCA; [ Ур.3 ]:
V1=a1F+E1
V2=a2F+E2
где F - скрытый общий фактор, извлеченный из данных и заменяющий то, что было P1 в уравнении 2 . Различие в модели состоит в том, что в FA, в отличие от PCA, переменные ошибки (E1 и E2) должны быть некоррелированными друг с другом .
aaaaaaa
ОК, вернемся к теме. E1 и E2 некоррелированы в факторном анализе; таким образом, они должны образовывать облако ошибок, круглых или эллиптических, но не по диагонали. В то время как в PCA их облако образовало прямую линию, совпадающую с диагонально идущей P2. Обе идеи демонстрируются на рисунке:
Обратите внимание, что ошибки - это круглое (не вытянутое по диагонали) облако в FA. Фактор (скрытый) в ФА ориентирован несколько иначе, то есть он не является первым основным компонентом, который является «скрытым» в ППШ. На рисунке линия фактора немного странно коническая - станет ясно, почему, в конце концов.
В чем смысл этой разницы между PCA и FA? Переменные коррелировали, что видно по диагонально-эллиптической форме облака данных. P1 снял максимальную дисперсию, поэтому эллипс сориентирован на P1. Следовательно, P1 объяснил собой корреляцию; но это не объяснило существующее количество корреляции адекватно; он пытался объяснить различия в точках данных, а не корреляцию. Фактически, это переоценило корреляцию, результатом которой стало появление диагонального, коррелированного облака ошибок, которое компенсирует перерасчет. Один P1 не может объяснить силу корреляции / ковариации всесторонне. Фактор F можетсделай это один; и условие, когда оно становится способным делать это, именно там, где ошибки могут быть вынуждены быть некоррелированными. Поскольку облако ошибок является круглым, никакой корреляции - положительной или отрицательной - не осталось после того, как фактор был извлечен, следовательно, это фактор, который снял все это.
Как уменьшение размерности, PCA объясняет дисперсию, но объясняет корреляции неточно. FA объясняет корреляции, но не может учитывать (из-за общих факторов) так много различий в данных, как PCA. Факторы в ФА учитывают ту часть изменчивости, которая является чистой корреляционной частью, называемой общностью ; и поэтому факторы могут быть интерпретированы как реальные, но ненаблюдаемые силы / особенности / черты, которые скрывают «внутри» или «позади» входные переменные, чтобы привести их в соответствие. Потому что они хорошо объясняют корреляцию математически. Основные компоненты (несколько первых) объясняют это математически не так хорошо, и поэтому их можно назвать «скрытой чертой» (или такими) только в некоторой степени и ориентировочно .
Умножение нагрузок - это то, что объясняет (восстанавливает) корреляцию или корреляцию в форме ковариации - если анализ был основан на ковариационной матрице (как в нашем примере), а не на корреляционной матрице. Факторный анализ, который я сделал с данными, дал a_1=.87352, a_2=.84528
, так что продукт a_1*a_2 = .73837
почти равен ковариации .73915
. С другой стороны, нагрузки PCA были a1_1=.97497, a1_2=.89832
, поэтому сильно a1_1*a1_2 = .87584
переоценивают .73915
.
Объяснив основное теоретическое различие между PCA и FA, давайте вернемся к нашим данным, чтобы проиллюстрировать идею.
FA: приблизительное решение (коэффициент факторов)
Ниже приведена диаграмма рассеяния, на которой показаны результаты анализа, который мы условно будем называть «субоптимальным факторным анализом», рис.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
См. Вылеты из рис.2 СПС. Бежевое облако ошибок не круглое, оно по диагонали эллиптическое, но, тем не менее, оно намного толще, чем тонкая диагональная линия, возникшая в PCA. Также обратите внимание, что соединители ошибок (показанные для некоторых точек) больше не параллельны (в PCA они по определению параллельны P2). Более того, если вы посмотрите, например, на точки «F» и «E», которые лежат зеркально симметрично относительно оси F фактора , вы неожиданно обнаружите, что их соответствующие коэффициенты имеют совершенно разные значения. Другими словами, оценки факторов - это не просто линейно преобразованные оценки основных компонентов: фактор F по-своему отличается от метода P1. И их оси не полностью совпадают, если показаны вместе на одном графике Рис.4 :
Кроме того, они немного по-другому ориентированы, F (в виде мозаики с оценками) короче, то есть учитывает меньшую дисперсию, чем P1. Как отмечалось ранее, фактор учитывает только изменчивость, которая отвечает за корреляцию V1 V2, то есть той части полной дисперсии, которая достаточна, чтобы привести переменные из первичной ковариации 0
к фактической ковариации .73915
.
FA: оптимальное решение (истинный фактор)
Оптимальное факторное решение - когда ошибки круглые или недиагональное эллиптическое облако: E1 и E2 полностью некоррелированы . Факторный анализ на самом деле возвращает такое оптимальное решение. Я не показывал это на простом графике рассеяния, подобном приведенному выше. Почему я? - ведь это было бы самым интересным, в конце концов.
Причина в том, что было бы невозможно отобразить на диаграмме рассеяния достаточно адекватно, даже принимая трехмерный график. Это довольно интересный момент теоретически. Чтобы сделать E1 и E2 полностью некоррелированными, кажется, что все эти три переменные, F, E1, E2 должны лежать не в пространстве (плоскости), определяемом V1, V2; и три должны быть некоррелированы друг с другом . Я полагаю, что можно нарисовать такую диаграмму рассеяния в 5D (и, может быть, с некоторым трюком - в 4D), но мы живем в мире 3D, увы. Фактор F должен быть некоррелированным как с E1, так и с E2 (в то время как оба они также некоррелированы), поскольку предполагается, что F является единственным (чистым) и полным источником корреляции в наблюдаемых данных. Анализ фактора расщепляется общая дисперсия изp
Входные переменные в двух некоррелированных (неперекрывающихся) части: коммунальность часть ( m
-мерном, где m
общие факторы правило) и единственность часть ( p
-мерном, где ошибки, называемых также уникальные факторы, взаимно некоррелированны).
Так что извините за то, что вы не показали истинный фактор наших данных на графике рассеяния здесь. Это может быть вполне адекватно визуализировано с помощью векторов в «предметном пространстве», как здесь, без отображения точек данных.
Выше, в разделе «Идея общей FA (скрытая особенность)» я отобразил коэффициент (ось F) в виде клина, чтобы предупредить, что истинная ось фактора не лежит на плоскости V1 V2. Это означает, что - в отличие от главного компонента P1 - фактор F в качестве оси не является вращением оси V1 или V2 в их пространстве, а F в качестве переменной не является линейной комбинацией переменных V1 и V2. Поэтому F моделируется (извлекается из переменных V1 v2), как будто внешняя, независимая переменная, а не их производная. Уравнения , как Eq.1 , откуда начинается PCA, неприменимы для вычисления истинного (оптимальный) фактора в факторном анализе, в то время как формально изоморфные уравнения Eq.2 и Eq.3действительны для обоих анализов. То есть в PCA переменные генерируют компоненты, а компоненты обратно предсказывают переменные; в факторах ФА генерировать / прогнозировать переменные, а не обратно - модель общего фактора концептуально предполагает это , хотя технически факторы извлекаются из наблюдаемых переменных.
Не только истинный фактор не зависит от проявленного переменных истинного фактора значение является не определены однозначно . Другими словами, они просто неизвестны. Это все из-за того, что мы находимся в чрезмерном 5D аналитическом пространстве, а не в нашем домашнем 2D пространстве данных. Нам доступны только хорошие приближения (существует ряд методов ) к истинным значениям факторов, называемым показателями факторов . Факторные оценки лежат в плоскости V1 V2, как и оценки главных компонентов, они рассчитываются как линейные функции V1, V2, и это были оничто я построил в разделе «ФА: приблизительное решение (фактор оценки)». Оценка основных компонентов - это истинные значения компонентов; Факторные оценки являются лишь разумным приближением к неопределенным истинным значениям факторов.
FA: обзор процедуры
a
Таким образом, «факторное решение», отображаемое мной в разделе «FA: приблизительное решение (факторные оценки)», было основано фактически на оптимальных нагрузках, т.е. на реальных факторах. Но оценки не были оптимальными, судьбой. Оценки рассчитываются как линейная функция наблюдаемых переменных, как и оценки компонентов, поэтому их можно сравнить на диаграмме рассеяния, и я сделал это в дидактическом стремлении, чтобы показать постепенный переход от идеи PCA к идее FA.
Следует проявлять осторожность при построении графиков для тех же нагрузок фактора биплота с оценками факторов в «пространстве факторов», имейте в виду, что нагрузки относятся к истинным факторам, в то время как оценки относятся к суррогатным факторам (см. Мои комментарии к этому ответу в этой теме).
Вращение факторов (нагрузок) помогает интерпретировать скрытые особенности. Вращение нагрузок может быть выполнено и в PCA, если вы используете PCA как факторный анализ (то есть смотрите PCA как переменный прогноз). PCA имеет тенденцию сходиться в результатах с FA по мере роста числа переменных (см. Чрезвычайно обширную ветку о практических и концептуальных сходствах и различиях между этими двумя методами). Смотрите мой список различий между PCA и FA в конце этого ответа . Пошаговые вычисления PCA против FA на наборе данных радужной оболочки находятся здесь . За пределами этой ветки существует множество хороших ссылок на ответы других участников по этой теме; Извините, я использовал только несколько из них в текущем ответе.
Смотрите также полный список различий между PCA и FA здесь .