Есть ли веская причина использовать PCA вместо EFA? Кроме того, может ли PCA заменить факторный анализ?


73

В некоторых дисциплинах PCA (анализ основных компонентов) систематически используется без какого-либо обоснования, а PCA и EFA (анализ факторных факторов) рассматриваются как синонимы.

Поэтому я недавно использовал PCA для анализа результатов исследования валидации шкалы (21 элемент по 7-балльной шкале Лайкерта, предполагаемый составление 3 факторов по 7 пунктов каждый), и рецензент спрашивает меня, почему я выбрал PCA вместо EFA. Я читал о различиях между обоими методами, и кажется, что EFA предпочтительнее PCA в большинстве ваших ответов здесь.

У вас есть веские причины для выбора PCA? Какие преимущества это может дать и почему это может быть мудрым выбором в моем случае?


1
Отличный вопрос Я склонен не соглашаться с ответом ttnphns и постараюсь представить альтернативную точку зрения позже сегодня.
говорит амеба: восстанови монику

5
@amoeba Я болею за тебя заранее. PCA - это просто метод преобразования, который может быть (иногда очень) полезным. Нет необходимости демонизировать его или приписывать ему ложное или неуместное намерение. С таким же успехом вы можете изгнать логарифм.
Ник Кокс

4
Похоже, что ответ ttnphns не демонизирует PCA. Мне кажется, он просто утверждает, что PCA не основан на предположении о скрытых переменных, генерирующих ваши данные, поэтому, если вы пытаетесь это сделать, FA - лучший выбор.
gung - Восстановить Монику

1
FWIW, я не комментировал конкретно ответ ttphns, но я часто сталкиваюсь с комментариями и критическими замечаниями, которые сводятся к обвинениям в том, что PCA не делает то, для чего оно никогда не предназначалось или не подходит.
Ник Кокс

3
@NeilG: PCA не является [вероятностной] порождающей моделью, потому что она не включает термин «шум» и, следовательно, с ним нет вероятности. Хотя есть вероятностное обобщение (PPCA), и оно очень тесно связано с PCA, см. Мой ответ здесь.
говорит амеба, восстанови Монику

Ответы:


95

Отказ от ответственности: @ttnphns очень хорошо осведомлен как о PCA, так и о FA, и я уважаю его мнение и многому научился у многих из его замечательных ответов по этой теме. Однако я склонен не соглашаться с его ответом здесь, а также с другими (многочисленными) сообщениями по этой теме здесь, в резюме, не только его; точнее, я думаю, что они имеют ограниченную применимость.


Я думаю, что разница между PCA и FA переоценена.

Посмотрите на это так: оба метода пытаются обеспечить низкоранговую аппроксимацию данной ковариационной (или корреляционной) матрицы. «Низкий ранг» означает, что используется только ограниченное (низкое) количество скрытых факторов или основных компонентов. Если ковариационная матрица данных , то модели:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Здесь - матрица с столбцами (где обычно выбирается как небольшое число, ), представляющее главных компонентов или факторов, - единичная матрица, а - диагональ матрица. Каждый метод может быть сформулирован как поиск (и остальных), минимизирующих [норму] разницы между левой и правой сторонами. k k k < n k I Ψ WWkkk<nkIΨW

PPCA обозначает вероятностный PCA , и, если вы не знаете, что это такое, на данный момент это не имеет большого значения. Я хотел упомянуть об этом, потому что он аккуратно вписывается между PCA и FA, имея промежуточную сложность модели. Это также ставит предположительно большую разницу между PCA и FA в перспективу: даже несмотря на то, что это вероятностная модель (точно такая же, как FA), она фактически оказывается почти эквивалентной PCA ( охватывает то же самое подпространство).W

Самое главное, обратите внимание , что модели отличаются только в том , как они относятся к диагонали . По мере увеличения размерности диагональ становится все менее и менее важной (поскольку на диагонали есть только элементов и элементов вне диагонали). В результате для больших обычно между PCA и FA обычно не так много различий, что редко приветствуется. Для малых они действительно могут сильно отличаться. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Теперь, чтобы ответить на ваш главный вопрос о том, почему люди в некоторых дисциплинах предпочитают PCA. Я предполагаю, что это сводится к тому, что математически это намного проще, чем FA (это не очевидно из приведенных выше формул, поэтому вы должны поверить мне здесь):

  1. PCA - так же как и PPCA, который немного отличается, - имеет аналитическое решение, а FA - нет. Таким образом, FA должен быть численно подходящим, существуют различные алгоритмы его выполнения, дающие, возможно, разные ответы и работающие в разных предположениях и т. Д. И т. Д. В некоторых случаях некоторые алгоритмы могут застрять (см., Например, «случаи Хейвуда»). Для PCA вы выполняете собственную декомпозицию и все готово; Ф. намного грязнее.

    Технически, PCA просто вращает переменные, и именно поэтому можно назвать это простым преобразованием, как @NickCox сделал в своем комментарии выше.

  2. Решение PCA не зависит от : вы можете найти первые три ПК ( ), и первые два из них будут идентичны тем, которые вы найдете, если изначально установите . Это не верно для FA: решение для не обязательно содержится внутри решения для . Это нелогично и запутанно.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Конечно, FA является более гибкой моделью, чем PCA (в конце концов, она имеет больше параметров) и часто может быть более полезной. Я не спорю против этого. То , что я имею аргументы против, является утверждение , что они концептуально очень разные с PCA быть о « описывающий данные» и FA быть о «поиске скрытых переменных». Я просто не вижу, что это так [почти] верно.

Чтобы прокомментировать некоторые конкретные моменты, упомянутые выше и в связанных ответах:

  • «В PCA количество измерений для извлечения / сохранения принципиально субъективно, в то время как в EFA число фиксировано, и вам обычно приходится проверять несколько решений» - ну, выбор решения все еще субъективен, поэтому я не увидеть любую концептуальную разницу здесь. В обоих случаях (субъективно или объективно) выбирается для оптимизации компромисса между подгонкой модели и сложностью модели.k

  • «FA может объяснить парные корреляции (ковариации). PCA, как правило, не может этого сделать» - не совсем, оба они объясняют корреляции лучше и лучше с .k

  • Иногда возникает дополнительная путаница (но не в ответах @ ttnphns!) Из-за различных практик в дисциплинах, использующих PCA и FA. Например, обычной практикой является поворот факторов в FA для улучшения интерпретируемости. Это редко делается после PCA, но в принципе ничто не мешает этому. Поэтому люди часто думают, что FA дает вам что-то «интерпретируемое», а PCA - нет, но это часто иллюзия.

Наконец, позвольте мне еще раз подчеркнуть, что при очень малых различия между PCA и FA действительно могут быть большими, и, возможно, некоторые претензии в пользу FA делаются с учетом малых . В качестве крайнего примера, при отдельный фактор всегда может прекрасно объяснить корреляцию, но один компьютер может не справиться с этим довольно плохо.n n = 2nnn=2


Обновление 1: генеративные модели данных

Вы можете видеть из числа комментариев, что я говорю , берется быть спорным. Риск затопить секцию комментариев еще больше, вот некоторые замечания относительно "моделей" (см. Комментарии @ttnphns и @gung). @ttnphns не нравится, что я использовал слово «модель» [ковариационной матрицы] для обозначения приведенных выше приближений; это вопрос терминологии, но то, что он называет «моделями», - это вероятностные / порождающие модели данных :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Обратите внимание, что PCA не является вероятностной моделью и не может быть сформулирована таким образом.

Разница между PPCA и FA заключается в термине шума: PPCA предполагает одинаковую дисперсию шума для каждой переменной, тогда как FA допускает разные дисперсии («уникальности»). Эта незначительная разница имеет важные последствия. Обе модели могут соответствовать общему алгоритму максимизации ожидания. Для FA аналитическое решение неизвестно, но для PPCA можно аналитически вывести решение, к которому сходится EM (и и ). Оказывается, имеет столбцы в том же направлении, но с меньшей длиной, чем стандартные загрузки PCA (я опускаю точные формулы). По этой причине я считаю PPCA «почти» PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW в обоих случаях охватывает одно и то же «главное подпространство».

Доказательство ( Tipping and Bishop 1999 ) немного техническое; Интуитивно понятная причина того, почему однородная дисперсия шума приводит к гораздо более простому решению, заключается в том, что имеет те же собственные векторы, что и для любого значения , но это не так для .C σ 2 C - ΨCσ2ICσ2CΨ

Так что да, @gung и @ttnphns правы в том, что FA основана на генеративной модели, а PCA - нет, но я думаю, что важно добавить, что PPCA также основан на генеративной модели, но «почти» эквивалентен PCA , Тогда это перестает казаться такой важной разницей.


Обновление 2: почему PCA обеспечивает наилучшее приближение к ковариационной матрице, когда известно, что она ищет максимальную дисперсию?

PCA имеет две эквивалентные формулировки: например, первый ПК - это (а) тот, который максимизирует дисперсию проекции, и (б), который обеспечивает минимальную ошибку реконструкции. Более абстрактно, эквивалентность между максимизацией дисперсии и минимизацией ошибки восстановления можно увидеть с помощью теоремы Эккарта-Юнга .

Если является матрицей данных (предполагается, что наблюдения в виде строк, переменных в виде столбцов и столбцов центрированы) и его разложение SVD равно , то оно Хорошо известно, что столбцы являются собственными векторами матрицы рассеяния (или ковариационной матрицы, если делится на число наблюдений) и поэтому они являются осями, максимизирующими дисперсию (т.е. главные оси). Но по Эккарт-Юнга теоремы, первые ПК обеспечивают наилучшее rank- приближение к :XX=USVVC=XX=VS2VkkXXk=UkSkVk(это обозначение означает принятие только наибольших сингулярных значений / векторов) минимизирует .kXXk2

Первые ПК обеспечивают не только лучший rank- приближение к , но и ковариационной матрицы . Действительно, , и последнее уравнение обеспечивает SVD-разложение (поскольку ортогонально и является диагональным). Таким образом, Эккерт-Янг теорема говорит нам , что лучше rank- приближению задается . Это можно изменить, заметив, чток Х С С = ХХ = V S 2 ВС В С 2 к С С к = V к S 2 к V к W = V S С к = V к S 2 к V к = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS - это загрузки PCA, поэтому

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Суть здесь в том, что как указано в начале.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Обновление 3: числовая демонстрация того, что PCA FA, когдаn

@Ttnphns вдохновил меня на количественную демонстрацию моего утверждения о том, что с ростом размерности решение PCA приближается к решению FA. Здесь это идет.

Я сгенерировал матрицу случайной корреляции × с некоторыми сильными недиагональными корреляциями. Затем я взял верхний левый квадратный блок этой матрицы с переменных, чтобы исследовать влияние размерности. Для каждого я выполнил PCA и FA с числом компонентов / факторов , а для каждого я вычислил недиагональную ошибку реконструкции (обратите внимание, что по диагонали FA прекрасно восстанавливает , благодаря200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨтермин, тогда как PCA нет; но диагональ здесь игнорируется). Затем для каждого и я вычислил отношение недиагональной ошибки PCA к недиагональной ошибке FA. Это соотношение должно быть выше , потому что FA обеспечивает наилучшую возможную реконструкцию.nk1

PCA и FA недиагональная ошибка реконструкции

Справа разные линии соответствуют разным значениям , а показано на горизонтальной оси. Обратите внимание, что с ростом отношения (для всех ) приближаются к , а это означает, что PCA и FA дают примерно одинаковые нагрузки, PCA FA. При относительно небольшом , например, когда , PCA работает [ожидаемо] хуже, но разница не так сильна для малых , и даже для отношение ниже .knnk1nn=25kk=51.2

Отношение может стать большим, когда число факторов становится сопоставимым с числом переменных . В приведенном выше примере с и FA достигает ошибок восстановления, а PCA - нет, то есть отношение будет бесконечным. Но вернусь к первоначальному вопросу, при и , PCA будут только умеренно проигрывают FA в объяснении недиагональной части .knn=2k=10n=21k=3C

Для иллюстрированного примера PCA и FA, примененных к реальному набору данных (набор данных Wine с ), смотрите мои ответы здесь:n=13


2
Я как раз собирался задать вопрос о математической разнице между техниками, поскольку большинство (в остальном отличных) ответов по этой теме не дают явных математических сравнений. Этот ответ именно то , что я искал.
Shadowtalker

2
Это очень ценный, развернутый аккаунт со свежей перспективой. Использование PPCA в качестве промежуточного метода имеет решающее значение - именно там растет ваше мнение. Могу ли я попросить вас оставить больше строк о PPCA? - Что такое , как оно оценивается (кратко) и чем оно отличается от так что PPC (в отличие от факторов) заполняют подпространство переменных, а PPC не зависит от . σ2Ψk
ttnphns

3
Здесь я продолжаю соглашаться с различием, что FA основана на скрытых переменных, тогда как PCA - это просто преобразование данных. Тем не менее, это очень хорошо аргументированная и полезная противоположная позиция. Это способствует качеству этой темы. +1
бандита - восстановите Монику

5
@amoeba ВАШ ОТВЕТ ОТЛИЧНЫЙ. Это так ясно и приятно. Спасибо, что поделились своим видением.
Субхаш С. Давар

2
@ user795305 Извинения, я забыл ответить. Модель FA, написанная в обновлении 1, верна. Предполагается, что скрытая действительно принадлежит и не зависит от . Решение ML для и действительно НЕ сводит к минимуму норму как я писал в обновлении 2; это было небрежно и неправильно. Я должен это исправить, спасибо. Тем не менее, я думаю, что можно сказать, что решение ML такое, что ; просто функция потерь здесь - не норма разницы, а более сложное выражение (вероятность заданная ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
Амеба говорит Восстановить Монику

27

Как вы сказали, вы знакомы с соответствующими ответами ; см. также : So, as long as "Factor analysis..."+ пара последних абзацев; и нижний список здесь . Короче говоря, PCA - это в основном метод сокращения данных, в то время как FA - это метод моделирования скрытых признаков. Иногда они дают похожие результаты; но в вашем случае - потому что вам, вероятно, хочется создавать / проверять скрытые черты, как будто реальные сущности - использование FA было бы более честным, и вы не должны предпочитать PCA в надежде, что их результаты сходятся. С другой стороны, всякий раз, когда вы стремитесь суммировать / упрощать данные - например, для последующего анализа - вы предпочитаете PCA, поскольку он не навязывает какую-либо сильную модель (которая может быть неактуальной) для данных.

Повторит другой путь, PCA дает размеры , которые могут соответствуют некоторым субъективно значимым конструкциям, если вы хотите, в то время как EFA представляет , что те даже скрытые свойства , которые фактически сгенерированные данные, и он стремится найти эти функции. В FA интерпретация измерений (факторов) еще не завершена - можете ли вы добавить значение к скрытой переменной или нет, оно «существует» (FA является эссенциальным), в противном случае вам следует удалить его из модели или получить больше данных для поддержки. Это. В PCA значение измерения необязательно.

И еще раз, другими словами: когда вы извлекаете m факторы (отделяете факторы от ошибок), эти несколько факторов объясняют (почти) всю корреляцию между переменными, так что переменным все равно не остается места для корреляции через ошибки. Следовательно, до тех пор, пока «факторы» определяются как скрытые черты, которые генерируют / связывают коррелированные данные, у вас есть полная подсказка, чтобы интерпретировать это - то, что отвечает за корреляции. В PCA (извлекать компоненты как «факторы») ошибки (могут) по-прежнему коррелируют между переменными; так что вы не можете утверждать, что вы извлекли что-то достаточно чистое и исчерпывающее для такой интерпретации.

Возможно, вы захотите прочитать мой другой, более длинный ответ в текущем обсуждении, для некоторых теоретических и имитационных деталей эксперимента о том, является ли PCA жизнеспособной заменой FA. Обратите также внимание на выдающиеся ответы @amoeba, приведенные в этой теме.


Upd : В своем ответе на этот вопрос @amoeba, который выступал против, представил (не очень известный) метод PPCA, стоящий на полпути между PCA и FA. Это, естественно, дало начало логике, согласно которой PCA и FA находятся на одной линии, а не на противоположной. Этот ценный подход расширяет теоретические горизонты. Но это может замаскировать важное практическое различие в том, что FA восстанавливает (объясняет) все попарные ковариации с помощью нескольких факторов, в то время как PCA не может сделать это успешно (и когда это иногда происходит - это потому, что это произошло с пантомимой FA).


Спасибо за Ваш ответ! Результаты FA в основном сходятся с результатами, полученными с помощью PCA. Единственное: авторы первоначального исследования (мой перевод + валидация) использовали анализ PCA. Достаточно ли этого, чтобы сохранить анализ PCA в моей статье и, возможно, добавить предложение, объясняющее, что результаты FA сходятся, или я должен заменить PCA на FA? Обратите внимание, что рецензент на самом деле не просит нас сделать это явно, он лишь просит объяснить, почему мы выбрали PCA вместо FA.
Карин

Я думаю: если авторы использовали PCA, но более строгий / честный подход требует EFA в их случае, вам следует отказаться от критического анализа и затем выполнить PCA или PCA и EFA, чтобы сравнить результаты.
ttnphns

2
Обратите внимание также на то, что в PCA количество измерений для извлечения / сохранения принципиально субъективно, в то время как в EFA число фиксировано, и вам обычно приходится проверять несколько решений, например 3 или 5 факторов, для определения степени их соответствия. воспроизвести матрицу корреляции и насколько хорошо они интерпретируются. FA более утомительный, поэтому люди часто предпочитают делать PCA в тех случаях, когда добросовестный подход требует пробовать несколько проходов EFA.
ttnphns

Также смотрите запись в Википедии: en.wikipedia.org/wiki/…
RobertF

15

В этом моем ответе (второй и дополнительный к другому здесь) я попытаюсь показать на рисунках, что PCA не восстанавливает ковариацию хорошо (тогда как она оптимально восстанавливает - максимизирует - дисперсию).

Как и в ряде моих ответов по PCA или факторному анализу, я перейду к векторному представлению переменных в предметном пространстве . В данном случае это всего лишь график загрузки, показывающий переменные и загрузки их компонентов. Таким образом, мы получили переменные и (в наборе данных их было только две), их 1-й главный компонент с загрузками и . Угол между переменными также отмечен. Переменные были предварительно отцентрированы, поэтому их квадраты длины, и являются их соответствующими дисперсиями.X1X2Fa1a2h12h22

введите описание изображения здесь

Ковариация между и - это их скалярное произведение - (кстати, этот косинус является значением корреляции). Загрузки PCA, конечно, фиксируют максимально возможную общую дисперсию помощью , дисперсии компонентаX1X2h1h2cosϕh12+h22a12+a22F

Теперь ковариация , где - проекция переменной на переменную (проекция, которая представляет собой регрессионное предсказание первого вторым). Таким образом, величина ковариации может быть представлена ​​областью прямоугольника ниже (со сторонами и ).h1h2cosϕ=g1h2g1X1X2g1h2

введите описание изображения здесь

Согласно так называемой «факторной теореме» (может знать, если вы читаете что-то по факторному анализу), ковариация (ы) между переменными должна (близко, если не точно) воспроизводиться путем умножения загрузок извлеченной скрытой переменной (ей) ( читать ) То есть, , в нашем конкретном случае (если признать основной компонент нашей скрытой переменной). Это значение воспроизводимой ковариации может быть представлено областью прямоугольника со сторонами и . Давайте нарисуем прямоугольник, выровненный по предыдущему прямоугольнику, для сравнения. Этот прямоугольник показан заштрихованным снизу, а его область называется cov * (воспроизводится cov ).а 1 а 2a1a2a1a2

введите описание изображения здесь

Очевидно, что эти две области довольно различны, в нашем примере cov * значительно больше. Ковариантность была переоценена нагрузками , 1-го основного компонента. Это противоречит тому, кто может ожидать, что PCA, благодаря только 1-му компоненту из двух возможных, восстановит наблюдаемое значение ковариации.F

Что мы можем сделать с нашим сюжетом, чтобы улучшить воспроизведение? Мы можем, например, немного повернуть луч часовой стрелке, даже пока он не наложится на . Когда их строки совпадают, это означает, что мы заставили быть нашей скрытой переменной. Тогда загрузка (проекция на него) будет , а загрузка (проекция на него) будет . Тогда два прямоугольника - это один и тот же, который был помечен как cov , и поэтому ковариация воспроизводится идеально. Однако , дисперсия, объясненная новой «скрытой переменной», меньше, чемFX2X2a2X2h2a1X1g1g12+h22a12+a22 , дисперсия, объясненная старой скрытой переменной, 1-й главный компонент (для сравнения выровняйте и сложите стороны каждого из двух прямоугольников на рисунке). Похоже, нам удалось воспроизвести ковариацию, но за счет объяснения количества отклонений. Т.е. путем выбора другой скрытой оси вместо первого главного компонента.

Наше воображение или предположение может предположить (я не буду и, возможно, не смогу доказать это с помощью математики, я не математик), что, если мы выпустим скрытую ось из пространства, определенного и , плоскостью, позволяя ей качать немного по отношению к нам, мы можем найти его оптимальное положение - назовем это, скажем, - в результате ковариация снова отлично воспроизводится возникающими нагрузками ( ), в то время как дисперсия объясняет ( ) будет больше , чем , хотя и не такой большой , как основного компонента .X1X2Fa1a2a12+a22g12+h22a12+a22F

Я считаю , что это условие является достижимым, особенно в том случае , когда скрытая ось получает обращается , выступающие из плоскости таким образом, чтобы вытащить «капюшон» из двух полученных ортогональных плоскостей, одна из которых содержит ось и и другой, содержащий ось и . Тогда эту скрытую ось мы назовем общим фактором , а всю нашу «попытку оригинальности» назовем факторным анализом .FX1X2


Ответ на @ amoeba "Обновление 2" в отношении PCA.

@amoeba является верным и уместным, если вспомнить теорему Эккарта-Юнга, которая является фундаментальной для PCA и его родственных методов (PCoA, биплот, анализ соответствия), основанных на SVD или собственном разложении. Согласно этому, первых главных осей оптимально минимизируют - величину, равную , - а также . Здесь обозначает данные, воспроизводимые главными осями. , как известно, равна , с быть переменные нагрузки поkX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk компоненты.

Означает ли это, что минимизация остается верной, если мы рассмотрим только недиагональные части обеих симметричных матриц? Давайте проверим это, экспериментируя.||XXXkXk||2

Сгенерировано 500 случайных 10x6матриц (равномерное распределение). Для каждого, после центрирования его столбцов, выполнялась PCA и вычислялись две восстановленные матрицы данных : одна восстановлена ​​компонентами с 1 по 3 ( сначала , как обычно в PCA), а другая восстановлена ​​компонентами 1, 2. и 4 (то есть компонент 3 был заменен более слабым компонентом 4). Ошибка реконструкции (сумма квадратов разности = квадрат евклидова расстояния) была затем вычислена для одного , для другого . Эти два значения представляют собой пару для отображения на диаграмме рассеяния.XXkk||XXXkXk||2XkXk

Ошибка восстановления вычислялась каждый раз в двух версиях: (a) сравнение целых матриц и ; (б) только недиагонали двух сравниваемых матриц. Таким образом, у нас есть два графика рассеяния, по 500 очков в каждом.XXXkXk

введите описание изображения здесь

Мы видим, что на графике «вся матрица» все точки лежат выше y=xлинии. Это означает, что реконструкция для всей матрицы скалярных произведений всегда более точна по «1–3 компонентам», чем «1, 2, 4 компонентам». Это в соответствии с теоремой Эккарта-Юнга гласит: первые главных компонентов - лучшие сборщики.k

Однако, когда мы смотрим на график «только вне диагонали», мы замечаем количество точек ниже y=xлинии. Оказалось, что иногда реконструкция недиагональных участков по «1–3 компонентам» была хуже, чем по «1, 2, 4 компонентам». Это автоматически приводит к выводу, что первые основных компонентов не всегда являются лучшими сборщиками недиагональных скалярных продуктов среди сборщиков, доступных в PCA. Например, взятие более слабого компонента вместо более сильного может иногда улучшить реконструкцию.k

Таким образом, даже в области самого PCA старшие главные компоненты - которые, как мы знаем, приблизительно аппроксимируют общую дисперсию и даже всю ковариационную матрицу - не обязательно аппроксимируют недиагональные ковариации . Поэтому требуется лучшая оптимизация; и мы знаем, что факторный анализ является (или среди) техникой, которая может предложить его.


Продолжение «Обновления 3» @ amoeba: приближается ли PCA к FA по мере роста числа переменных? Является ли PCA действительной заменой FA?

Я провел решетку симуляционных исследований. Несколько структур фактора населенности, матрицы загрузки были построены из случайных чисел и преобразованы в соответствующие им ковариационные матрицы населенности как , причем - диагональный шум (уникальный дисперсии). Эти ковариационные матрицы были сделаны со всеми дисперсиями 1, поэтому они были равны их корреляционным матрицам.AR=AA+U2U2

Были разработаны два типа факторной структуры - острая и диффузная . Острая конструкция имеет четкую простую структуру: нагрузки либо «высокие», либо «низкие», промежуточных нет; и (в моем дизайне) каждая переменная сильно загружена ровно одним фактором. Соответствующее , следовательно, заметно блочно. Диффузная структура не различает высокие и низкие нагрузки: они могут быть любым случайным значением в пределах границ; и никакой шаблон в пределах нагрузок не зачат. Следовательно, соответствующий получается более гладким. Примеры матриц населения:RR

введите описание изображения здесь

Количество факторов было или . Количество переменных определялось соотношением k = количество переменных на фактор ; k побежал значения в исследовании.264,7,10,13,16

Для каждой из немногих построенных популяций , были сгенерированы случайные реализации из распределения Уишарта (при размере выборки ). Это были образцы ковариационных матриц. Каждый из них был подвергнут факторному анализу с помощью ФА (путем извлечения по главной оси), а также с помощью PCA . Кроме того, каждая такая ковариационная матрица была преобразована в соответствующую выборочную корреляционную матрицу, которая также была подвергнута факторному анализу (факторизации) теми же способами. Наконец, я также выполнил факторинг самой «родительской» матрицы ковариации (= корреляции) популяции. Мера Кайзера-Мейера-Олкина адекватности выборки всегда была выше 0,7.50R50n=200

Для данных с 2 факторами в результате анализа были извлечены 2, а также 1, а также 3 фактора («недооценка» и «переоценка» режимов правильного числа факторов). Для данных с 6 факторами анализ также извлек 6, а также 4, а также 8 факторов.

Целью исследования было восстановление ковариаций / корреляционных качеств FA против PCA. Поэтому были получены остатки недиагональных элементов. Я зарегистрировал невязки между воспроизведенными элементами и матричными элементами совокупности, а также невязки между первыми и проанализированными матричными элементами выборки. Остатки 1-го типа были концептуально более интересными.

Результаты, полученные после анализа, выполненного на ковариации образца и на матрицах корреляции образца, имели определенные различия, но все основные результаты оказались схожими. Поэтому я обсуждаю (показываю результаты) только анализ «корреляционный режим».

1. Общая недиагональная посадка PCA против FA

Графики ниже показывают, на фоне различных чисел факторов и различных k отношение среднего квадрата недиагонального остатка, полученного в PCA, к тому же количеству, полученному в FA . Это похоже на то, что @amoeba показало в «Обновлении 3». Линии на графике представляют средние тенденции по 50 симуляциям (я опускаю показ столбцов ошибок по ним).

(Примечание: результаты касаются факторизации матриц корреляции случайных выборок , а не факторинга родительской матрицы популяции для них: глупо сравнивать PCA с FA относительно того, насколько хорошо они объясняют матрицу населения - FA всегда выигрывает, и если правильное количество факторов извлекается, его остатки будут почти нулевыми, и поэтому соотношение будет стремиться к бесконечности.)

введите описание изображения здесь

Комментируя эти сюжеты:

  • Общая тенденция: по мере увеличения k (числа переменных на фактор) общее соотношение подфасов PCA / FA уменьшается к 1. То есть, с большим количеством переменных PCA приближается к FA при объяснении недиагональных корреляций / ковариаций. (Документально подтверждено @amoeba в его ответе.) Предположительно, закон, приближающий кривые, это отношение = exp (b0 + b1 / k) с b0, близким к 0.
  • Отношение больше по отношению к остаткам «образец минус воспроизводимая выборка» (левый график), чем к остаткам «популяция минус воспроизводимый образец» (правый график). То есть (тривиально), PCA уступает FA в подборе матрицы, подлежащей немедленному анализу. Тем не менее, линии на левом графике имеют более быструю скорость уменьшения, поэтому при k = 16 отношение также будет меньше 2, как и на правом графике.
  • С остатками «популяция минус воспроизводимая выборка», тренды не всегда выпуклые или даже монотонные (необычные локти показаны кружком). Таким образом, поскольку речь идет об объяснении матрицы коэффициентов для популяции посредством факторизации выборки, увеличение числа переменных не приводит к регулярному приближению PCA к FA по качеству подгонки, хотя эта тенденция налицо.
  • Соотношение больше для m = 2 факторов, чем для m = 6 факторов в популяции (жирные красные линии находятся ниже жирных зеленых линий). Это означает, что при большем количестве факторов, действующих в данных, PCA быстрее догоняет FA. Например, на правом графике k = 4 дает соотношение около 1,7 для 6 факторов, в то время как такое же значение для 2 факторов достигается при k = 7.
  • Соотношение выше, если мы извлечем больше факторов относительно истинного числа факторов. То есть PCA только немного хуже, чем FA, если при извлечении мы недооцениваем число факторов; и он теряет больше, если число факторов является правильным или завышенным (сравните тонкие линии с жирными линиями).
  • Интересен эффект резкости факторной структуры, который проявляется только в том случае, если мы рассмотрим остатки «популяция минус воспроизводимая выборка»: сравните серые и желтые графики справа. Если популяционные факторы загружают переменные диффузно, красные линии (m = 6 факторов) опускаются на дно. То есть в диффузной структуре (такой как загрузки хаотических чисел) PCA (выполняемый на выборке) лишь немногим хуже FA в восстановлении популяционных корреляций - даже при малых k, при условии, что число факторов в населении не очень маленький. Это, вероятно, условие, когда PCA наиболее близок к FA и наиболее оправдан в качестве более дешевого заменителя. В то время как при наличии четкой факторной структуры PCA не столь оптимистичен в восстановлении популяционных корреляций (или ковариаций): он приближается к FA только в перспективе k.

2. Подгонка уровня элемента по PCA против FA: распределение остатков

Для каждого эксперимента по моделированию, в котором выполнялся факторинг (с помощью PCA или FA) 50 матриц случайной выборки из матрицы населения, для каждого недиагонального элемента корреляции было получено распределение остатков «корреляция популяции минус воспроизводимая (путем факторинга) корреляция выборки» . Распределения следовали за четкими образцами, и примеры типичных распределений изображены прямо ниже. Результаты после PCA- факторинга - синие левые стороны, а результаты после FA- факторинга - зеленые правые стороны.

введите описание изображения здесь

Основной вывод заключается в том, что

  • Проще говоря, по абсолютной величине корреляции популяции восстанавливаются PCA неадекватно: воспроизводимые значения являются завышенными по величине.
  • Но смещение исчезает при увеличении k (количество переменных к числу факторов). На рисунке, когда есть только k = 4 переменных на фактор, остатки PCA распространяются со смещением от 0. Это видно как при наличии 2 факторов, так и 6 факторов. Но с k = 16 смещение почти не видно - оно почти исчезает, и подгонка PCA приближается к подгонке FA. Различий в разбросе (дисперсии) остатков между PCA и FA не наблюдается.

Аналогичная картина наблюдается и в том случае, если количество извлеченных факторов не соответствует истинному количеству факторов: только дисперсия остатков несколько изменяется.

Распределения, показанные выше на сером фоне, относятся к экспериментам с четкой (простой) факторной структурой, присутствующей в популяции. Когда все анализы были выполнены в ситуации диффузной структуры популяционных факторов, было обнаружено, что смещение PCA исчезает не только с ростом k, но и с ростом m (число факторов). Пожалуйста, смотрите уменьшенные вложения на желтом фоне в столбце «6 факторов, k = 4»: для результатов PCA смещение от 0 почти не наблюдается (смещение все еще присутствует при m = 2, что не показано на рисунке). ).

Полагая, что описанные результаты важны, я решил глубже изучить эти распределения остатков и нанести на график диаграммы рассеяния остатков (ось Y) относительно значения элемента (корреляции населения) (ось X). Каждый из этих графиков рассеяния объединяет результаты всех многих (50) симуляций / анализов. Линия посадки LOESS (используется 50% локальных точек, ядро ​​Епанечникова). Первый набор графиков предназначен для случая резкой факторной структуры в популяции (поэтому очевидна тримодальность значений корреляции):

введите описание изображения здесь

Комментируя:

  • Мы ясно видим (описанный выше) смещение восстановления, которое характерно для PCA, как наклонную линию лёсса с отрицательным трендом: большие в абсолютной величине корреляции популяции завышаются с помощью PCA наборов данных. FA беспристрастен (горизонтальный лесс).
  • С ростом k смещение PCA уменьшается.
  • PCA является предвзятым независимо от того, сколько факторов в популяции: с 6 факторами (и 6, извлеченными в ходе анализа), он также дефектен, как и с 2 факторами (2 извлечены).

Второй набор графиков ниже для случая диффузной факторной структуры в популяции:

введите описание изображения здесь

Снова мы наблюдаем смещение со стороны PCA. Однако, в отличие от случая с острой структурой факторов, смещение исчезает по мере увеличения числа факторов: с 6 популяционными факторами линия лесса PCA не очень далека от горизонтальной даже при k только 4. Это то, что мы выразили " желтые гистограммы "ранее.

Одним интересным явлением на обоих наборах диаграмм рассеяния является то, что линии лесса для PCA имеют S-изогнутую форму. Эта кривизна показывает при других структурах фактора населения (нагрузки), случайно построенных мной (я проверял), хотя его степень варьируется и часто является слабой. Если из S-формы следует, что PCA начинает быстро искажать корреляции, когда они отскакивают от 0 (особенно при малых k), но от некоторого значения - около .30 или .40 - стабилизируется. Я не буду сейчас рассуждать о возможной причине такого поведения, хотя я считаю, что «синусоида» проистекает из тригонометрического характера корреляции.

Fit от PCA против FA: Выводы

В качестве общего приспособления недиагональной части матрицы корреляции / ковариации PCA - при применении для анализа матрицы выборки из совокупности - может быть довольно хорошей заменой факторного анализа. Это происходит, когда отношение количества переменных к числу ожидаемых факторов достаточно велико. (Геометрическая причина благотворного влияния соотношения объясняется в нижней сноске ) При наличии большего количества факторов это соотношение может быть меньше, чем при наличии лишь нескольких факторов. Наличие четкой факторной структуры (в популяции существует простая структура) мешает PCA приблизиться к качеству FA.1

Влияние четкой факторной структуры на общую способность к подгонке PCA проявляется только при условии, что учитываются остатки «популяция минус воспроизводимая выборка». Поэтому можно не распознать его вне условий имитационного исследования - при наблюдательном исследовании выборки у нас нет доступа к этим важным остаткам.

В отличие от факторного анализа, PCA является (положительно) смещенной оценкой величины популяционных корреляций (или ковариаций), которые отличаются от нуля. Однако предвзятость PCA уменьшается с ростом отношения числа переменных к числу ожидаемых факторов. Смещение также уменьшается по мере роста числа факторов в популяции, но эта последняя тенденция затрудняется при наличии резкой структуры факторов.

Я хотел бы отметить, что смещение в соответствии с PCA и влияние резкой структуры на него можно выявить также при рассмотрении остатков «образец минус воспроизводимый образец»; Я просто опускал показ таких результатов, потому что они, кажется, не добавляют новых впечатлений.

В конце концов, мой весьма предварительный, общий совет может состоять в том, чтобы воздерживаться от использования PCA вместо FA для типичных (т. Е. С учетом 10 или менее факторов, ожидаемых в популяции) факторных аналитических целей, если только у вас в 10 раз больше переменных, чем факторов. И чем меньше факторов, тем серьезнее необходимое соотношение. Кроме того, я бы не рекомендовал использовать PCA вместо FA вообще всякий раз, когда анализируются данные с четко установленной, четкой структурой факторов - например, когда проводится факторный анализ для проверки разрабатываемого или уже запущенного психологического теста или вопросника с сочлененными конструкциями / шкалами. , PCA может использоваться в качестве инструмента начального, предварительного выбора предметов для психометрического инструмента.

Ограничения исследования. 1) Я использовал только PAF метод извлечения факторов. 2) Размер выборки был фиксирован (200). 3) Нормальная популяция была принята при выборке выборочных матриц. 4) Для четкой структуры было смоделировано равное количество переменных на фактор. 5) Построение нагрузок фактора населения Я позаимствовал их из примерно равномерного (для четкой структуры - тримодального, т.е. равномерного) распределения. 6) В этом мгновенном экзамене, конечно, могут быть упущения, как и везде.


Сноска . PCA будет имитировать результаты FA и станет эквивалентным составителем корреляций, когда - как сказано здесь - переменные ошибки модели, называемые уникальными факторами , станут некоррелированными. FA стремится сделать их коррелированы, но PCA не, они могут произойти некоррелированными в PCA. Основным условием, когда это может произойти, является то, что число переменных на число общих факторов (компонентов, сохраняемых как общие факторы) велико.1

Рассмотрим следующие картинки (если вам нужно сначала научиться понимать их, прочитайте этот ответ ):

введите описание изображения здесь

По требованию факторного анализа, чтобы иметь возможность успешно восстанавливать корреляции с несколькими mобщими факторами, уникальные факторы , характеризующие статистически уникальные части явных переменных , должны быть некоррелированными. Когда используется PCA, должны лежать в подпространстве -пространства, охватываемого s, потому что PCA не покидает пространство анализируемых переменных. Таким образом - см. - с (главный компонент - извлеченный фактор) и ( , ) проанализированы уникальные факторы ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1UpXp Up-mpXm=1P1p=2X1X2U1U2в обязательном порядке накладывается на оставшийся второй компонент (служит ошибкой анализа). Следовательно, они должны быть соотнесены с . (На рис. Корреляции равны косинусам углов между векторами.) Требуемая ортогональность невозможна, и наблюдаемая корреляция между переменными никогда не может быть восстановлена ​​(если уникальными факторами являются нулевые векторы, тривиальный случай).r=1

Но если вы добавите еще одну переменную ( ), правый рис и извлеките еще одну pr. Компонент как общий фактор, три должны лежать в плоскости (определяемой оставшимися двумя компонентами pr). Три стрелки могут охватывать плоскость таким образом, что углы между ними меньше 180 градусов. Там появляется свобода для углов. Как возможный частный случай, углы могут быть примерно равны, 120 градусов. Это уже не очень далеко от 90 градусов, то есть от некоррелированности. Это ситуация, показанная на рис. UX3U

Когда мы добавим 4-ю переменную, 4 s будут занимать трехмерное пространство. С 5, 5 до 4d и т. Д. Пространство для множества углов одновременно, чтобы приблизиться к 90 градусам, будет расширяться. Это означает, что пространство для PCA, чтобы приблизиться к FA в его способности соответствовать недиагональным треугольникам матрицы корреляции, также расширится.U

Но истинная FA обычно способна восстановить корреляции даже при небольшом соотношении «количество переменных / количество факторов», потому что, как объясняется здесь (см. Рис. 2), факторный анализ допускает все векторы факторов (общий фактор (ы) и уникальные из них) отклоняться от лежащих в пространстве переменных. Следовательно, есть место для ортогональности s даже только с 2 переменными и одним фактором.XUX

Приведенные выше рисунки также дают очевидный ключ к тому, почему PCA переоценивает корреляции. На левом рисунке, например, , где s - проекции s на (нагрузки ), а s - длины s (загрузки ). Но эта корреляция, восстановленная одним равна просто , то есть больше, чем . a X P 1 P 1 u U P 2 P 1 a 1 a 2 r X 1 X 2rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Мне нравятся ваши рисунки PCA / FA / CCA, так что радостно +1. Этот способ мышления является тем, к чему я совершенно не привык, поэтому он требует некоторой мысли, чтобы сопоставить его с математикой, которую я знаю ... Однако, обратите внимание, что здесь (а также в вашем другом известном ответе FA-vs-PCA с рисунки) у вас есть только две переменные. Как я сказал в своем ответе, когда есть только две переменные, одного фактора в FA достаточно, чтобы идеально, 100%, воспроизвести ковариацию (потому что в ковариационной матрице есть только одна степень свободы, кроме диагонали), но один компьютер вообще не может этого сделать. Так что нет никакого противоречия с моим ответом.
говорит амеба: восстанови монику

Хм, я надеюсь, что не неправильно понял смысл различий между FA и PCA. Здесь у меня недостаточно места для моей точки зрения, я бы поставил ее в другом ответе
Готфрид Хелмс

2
Отвечая на ваше обновление (которое является вашим ответом на мое обновление 2): Я абсолютно согласен со всем, что вы здесь написали! Загрузки PCA являются лучшим приближением низкого ранга ко всей ковариационной матрице (включая диагональ), но не обязательно лучшим приближением низкого ранга к недиагональной части; последнее приближение определяется факторным анализом. Кажется, что мы достигли взаимного соглашения здесь; или вы все еще чувствуете, что некоторые части моего ответа противоречат вашему мышлению?
говорит амеба, восстанови Монику

1
@ttnphns: я перечитал наше обсуждение выше и позвольте мне вернуться к одному пункту, который я сделал в своем первоначальном ответе. PCA пытается найти нагрузки, аппроксимирующие всю ковариационную матрицу; FA пытается найти нагрузки, аппроксимирующие недиагональную часть. Но чем больше размерность, тем меньшую часть ковариационной матрицы занимает ее диагональ, а это означает, что в больших измерениях PCA начинает заботиться главным образом о недиагональной ее части (поскольку диагональная часть становится настолько малой). В общем, чем больше размерность, тем ближе PCA к FA. Вы согласны?
говорит амеба: восстанови монику

1
Спасибо за пинг, ttnphns. Вау, это выглядит интересно. Я прочитаю это внимательно, но не прямо сейчас; Возможно, мне придется отложить это до января. Я прокомментирую здесь, как только прочитаю. Кстати, я думал (в глубине души) о том, чтобы вернуться к этой теме и немного отредактировать свой ответ, чтобы сделать его более "примирительным". Это может быть хорошей возможностью сделать это (но позвольте мне сначала прочитать то, что вы написали). С наступающим!
говорит амеба, восстанови Монику

4

(Это действительно комментарий ко второму ответу @ ttnphns).
Что касается различного типа воспроизведения ковариации, предполагающего ошибку ПК и FA, я просто распечатал нагрузки / компоненты дисперсии, которые происходят в двух предикатах ; только для примеров я взял 2 переменные.

Мы предполагаем построение двух предметов как одного общего фактора, так и предметов специфических факторов. Вот эта матрица коэффициентов загрузки:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Матрица корреляции по этому

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Если мы посмотрим на матрицу нагрузок L_fa и интерпретируем ее как обычно в FA, что f2 и f3 являются ошибками в терминах ошибок / специфических для элементов, мы воспроизводим C без этой ошибки, получая

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Таким образом, мы прекрасно воспроизвели недиагональный элемент, который является ковариацией (и диагональ уменьшена)

Если мы посмотрим на pca-решение (может быть сделано простым вращением), мы получим два фактора из одной корреляционной матрицы:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Предполагая второй фактор как ошибку, мы получаем воспроизводимую матрицу ковариаций.

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

где мы переоценили истинную корреляцию. Это потому, что мы проигнорировали корректирующую отрицательную частичную ковариацию во втором факторе = ошибка. Обратите внимание, что PPCA будет идентичен первому примеру.

С большим количеством предметов это уже не так очевидно, но все же присущ эффект. Поэтому существует также концепция извлечения MinRes (или -rotation?), И я также видел нечто вроде извлечения максимальной детерминанты и ...


[обновление] Что касается вопроса о @amoeba:

Я понял концепцию «Минимальные остатки» («MinRes») - ротация как параллельный метод для более ранних методов вычисления CFA, чтобы добиться наилучшего воспроизведения недиагональных элементов корреляционной матрицы. Я узнал об этом в 80-х / 90-х годах и не следил за развитием факторного анализа (столь же глубокого, как прежде в последние годы), поэтому, возможно, «МинРес» не в моде.

Чтобы сравнить его с PCA-решением : можно подумать о том, чтобы найти pc-решение по поворотам факторов, когда они рассматриваются как оси в евклидовом пространстве, а нагрузки - это координаты элементов в этом векторном пространстве.
Затем для пары осей, скажем, x, y вычисляются суммы квадратов от нагрузок оси x и нагрузки по оси y.
Отсюда можно найти угол поворота, на который мы должны вращаться, чтобы получить суммы квадратов по повернутым осям, максимальные на оси x ° и минимальные на оси y ° (где маленький круг обозначает повернутые оси) ,

Делаем это для всех пар осей (где только всегда ось x является левой, а ось y является правой (поэтому для 4 факторов у нас есть только 6 пар вращения)), а затем повторяем весь процесс до стабильного результата реализует так называемый «метод Якоби» для нахождения решения главных компонент: он найдет первую ось таким образом, что соберет максимально возможную сумму квадратов нагрузок («SSqL») (что также означает «дисперсию»). ") по одной оси в текущей корреляционной конфигурации.

Насколько я понял, MinRes должен смотреть на частичные корреляции, а не на SSqL; поэтому он не суммирует квадраты нагрузок (как это делается при вращении Якоби-ПК), а суммирует перекрестные продукты нагрузок в каждом факторе - за исключением «перекрестных продуктов» (= квадратов) нагрузок каждого Товар с собой.
После того, как критерии для x и для оси y вычислены, это происходит так же, как описано для итеративного вращения Якоби.

Поскольку критерий вращения численно отличается от критерия максимума SSqL, результат / позиция вращения должны отличаться от решения PCA. Если он сходится, он должен вместо этого обеспечить максимально возможную частичную корреляцию по одной оси в первом факторе, следующую максимальную корреляцию по следующему фактору и так далее. Кажется, что идея состоит в том, чтобы принять так много осей / факторов, чтобы оставшаяся / остаточная частичная ковариация стала предельной.

(Обратите внимание, что это только то, как я интерпретировал вещи, я не видел, чтобы эта процедура была явно написана (или не могу вспомнить в данный момент); описание в mathworld, кажется, выражает это скорее в терминах формул, как в ответе амебы), и скорее авторитетнее. Только что нашел другую ссылку в документации R-проекта и, вероятно, очень хорошую ссылку в книге Горсуча по факторантизу, стр. 116, доступной через google-books )


Можете ли вы объяснить, что вы имеете в виду в своем последнем предложении? Что такое извлечение "MinRes" или "максимальная детерминанта", и как это связано с тем, что вы написали ранее?
говорит амеба, восстанови Монику

«MinRes» - это метод извлечения или ротации, который я встречал много лет назад в монографиях С. Мулайка или К. Юберлы о факторанализе. Основное внимание уделяется минимизации остаточных недиагональных элементов. Поскольку это было явно упомянуто в контексте многих других методов, я предположил, что это - возможно, немного - отличается от CFA - реализации той эпохи. Я пытался реализовать его обоснование в качестве критерия ротации, но каким-то образом не дал окончательного результата. Я ожидал также, что «Максимизация детерминанта» будет известна здесь; Я посмотрю, какое описание я получил 20 лет назад ...
Готфрид Хелмс

Ааа, у меня есть обе части. Описание критерия вращения для обоснования "minres" находится на go.helms-net.de/stat/fa/minres.htm . «Максимальный определитель» - это математическая модель по методу извлечения / вращения некоторого корреспондента Джеффри Оуэна Каца, который назвал его «облисим» и, возможно, был разработан после нашей переписки. К тому времени это было над моей головой; во всяком случае, я попытался понять метод и отформатировал и реорганизовал его в файл слова. См. Go.helms-net.de/stat/fa/oblisim.zip. Google для "oblisim" дал запись в группе новостей, которая, кажется, представила ее.
Готфрид Хелмс

@amoeba: Здесь, возможно, первая запись, где Джефф Кац представил свой набор методов: mathforum.org/kb/message.jspa?messageID=1516627 Это в 1998 году, поэтому мое предположение около 20 лет назад было немного неточным ...
Готфрид Хелмс

2

На мой взгляд, понятия «PCA» и «FA» находятся в другом измерении по сравнению с понятиями «исследовательский», «подтверждающий» или, возможно, «выводный». Таким образом, каждый из двух математических / статистических методов может применяться с одним из трех подходов.

Например, почему бессмысленно иметь гипотезу, что мои данные имеют общий фактор, а также структуру набора основных компонентов (потому что мой эксперимент с моим электронным аппаратом дал мне почти безошибочные данные), и я проверяю свою гипотезу, что собственные значения последующих факторов встречаются с соотношением 75%? Тогда это СПС в подтверждающих рамках.

С другой стороны, кажется смешным, что в нашей исследовательской группе мы с большим трудом создаем элементную батарею для измерения насилия между учениками и предположения о трех основных видах поведения (физическая агрессия, депрессия, поиск помощи со стороны властей / родителей) и постановка соответствующих вопросов. в этой батарее ... и "исследуем" выясним, сколько у нас факторов ... Вместо того, чтобы посмотреть, насколько хорошо наша шкала содержит три распознаваемых фактора (помимо пренебрежимо специфичных для предмета и, возможно, даже ошибочно коррелированных ошибок) И после этого, когда я подтвердил, что действительно наша батарея предметов служит цели, мы могли бы проверить гипотезу о том, что в классах младших детей нагрузки на фактор, указывающий «поиск-помощь-авторитетами» выше чем у старших учеников. Хм, опять подтверждающий ...

А исследовательский? У меня есть ряд мер, взятых из исследований в области микробиологии 1960 года, и у них было немного теории, но они отобрали все, что могли, потому что их область исследований была очень молодой, и я заново исследую доминирующую структуру факторов, предполагая (например) что все ошибки имеют одинаковую величину из-за оптической точности используемого микроскопа (ppca-ansatz, как я только что узнал). Затем я использую статистическую (а затем и математическую) модель для ФА, но в этом случае в исследовательской манере.

Это как минимум то, как я понимаю термины.
Может быть, я здесь совершенно не на том пути, но я этого не предполагаю.


Ps. В 90-х годах я написал небольшую интерактивную программу для изучения метода PCA и факторанализа вплоть до самого дна. Он был написан на Turbo-Pascal, все еще может быть запущен только в Dos-Window («Dos-box» под Win7), но имеет очень приятную привлекательность: интерактивно переключать факторы, включать или нет, а затем вращать, отдельные ошибки, специфичные для элементов. дисперсия (в соответствии с SMC-критерием или критерием равных отклонений (ppca?)), включение и выключение опции Kaiser, включение и выключение ковариаций - только все, в то время как матрица факторных нагрузок видна, как в электронной таблице и может вращаться для основных различных методов вращения.
Он не очень сложный: например, нет теста на квадратный критерий, он просто предназначен для самостоятельного изучения внутренней математической механики. Он также имеет «демонстрационный режим», в котором программа запускается сама, показывая поясняющие комментарии на экране и имитируя ввод с клавиатуры, что обычно делает пользователь.
Тот, кто заинтересован в самообучении или обучении с его помощью, может загрузить его с моих маленьких страниц программного обеспечения внутри (R) .zip. Просто разверните файлы в zip-каталоге в каталоге, доступном для Dos-Box, и вызовите "demoall.bat". третья часть "демонстрации". Я продемонстрировал, как моделировать ошибки, специфичные для элементов, с помощью поворотов из первоначально решения pca ...


Порт R вашей программы был бы интересен. Кстати, моим первым языком программирования (и одним из фаворитов) был [Turbo] Pascal. Я даже использовал это, чтобы написать программное обеспечение для моей дипломной работы BS. Затем, некоторое время спустя, я некоторое время использовал Delphi вместе с другими языками и системами. :-)
Александр Блех

1
@ Александр: Ну, такой импорт, безусловно, был бы хорошей идеей; однако ... тем временем я получаю "билеты Старшего" для местной системы трафика, и, хотя еще не устал, я немного устал от программирования ... Я думаю, что "Delphi" был естественной заменой Turbo Pascal ; Я бы значительно улучшил это Inside- [r] до матричного калькулятора "MatMate", используя Delphi 6, в который я включил Inside- [r] в качестве вспомогательного инструмента. Тем не менее, иногда я думаю, что эта действительно хорошая функция с указанием и щелчком в Inside- [r] также должна быть переосмыслена - помимо любого сложного языка сценариев или интерпретаторов ...
Готфрид Хелмс

2

Еще одно замечание к длинному (и действительно хорошему) ответу @ amoebas о характере -оценки. Ψ

В ваших первоначальных утверждениях у вас есть три : для PCA это , для PPCA это и для FA вы оставили неопределенным. ΨΨ=0Ψ=σ2IΨ

Но следует отметить, что существует бесконечное число различных возможных (безусловно, ограниченных), но точно одно, которое минимизирует ранг фактор-матрицы. Давайте назовем это Стандартная (автоматическая) оценка для является диагональной основанной на SMC, поэтому давайте запишем это как (и даже некоторые программы (кажется) не пытаются оптимизировать с то время как (как правило) необходим для предотвращения случаев Heywood / отрицательной определенности). И более того, даже такой оптимизированныйΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2не гарантирует минимальный ранг оставшихся ковариаций, поэтому обычно мы имеем это не равное: в общем случае . По-настоящему найти - очень сложная игра, и, насколько я знаю (но это уже не так «далеко», как, скажем, 20 лет назад, когда я был более вовлечен и ближе к книгам), это все еще нерешенная проблема. ΨstdΨopt
Ψopt


Что ж, это отражает идеальную, математическую сторону проблемы, и мое различие между и также может быть небольшим. Тем не менее, более общее предостережение заключается в том, что в нем обсуждается весь механизм факторизации с точки зрения того, что я изучаю только свою выборку или имею данные о всей совокупности ; в модели логической статистики, где я делаю вывод из несовершенной выборки по населению, моя эмпирическая ковариация - и, следовательно, факторная матрица - это только оценка, это всего лишь тень от «истинной» ковариационной / факторной матрицы. Таким образом, в такой структуре / модели мы должны даже считать, что наши «ошибки» не идеальныΨstdΨoptи, следовательно, может быть ложно коррелированы. Таким образом, на самом деле в таких моделях мы должны оставить / оставить идеалистическое предположение о некоррелированной ошибке и, следовательно, о строго диагональной форме , позади нас.Ψ


Привет, я не уверен, что могу полностью следовать вашим замечаниям здесь. Правильно ли я понимаю, что под вы имеете в виду такую ​​диагональную матрицу с положительными элементами, что имеет наименьший возможный ранг (где - матрица cov / corr)? Я думаю, что для общего размера этот наименьший возможный ранг не намного меньше (может быть, или чего-то еще), поэтому поиск не кажется очень интересным. Я основывал свой ответ на предположении, что FA пытается найти и ( размера для данногоΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) чтобы минимизировать, CWWΨ
говорит амеба: восстанови Монику

Разница точек зрения может быть основана на порядке шагов для решения проблемы, чтобы оценить два параметра, которые также зависят друг от друга. В своем замечании я начну с того, что существует для которого оставшийся ранг, скажем, , минимален и , хотя, возможно, мы имеем в виду некоторое количество факторов с учетом . Если мы повернем в положение minres, любое количество факторов вырезанных справа, удалит только минимальную (частичную) ковариацию. ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Готфрид Хелмс

(...) Если вместо этого вы начнете с , то обычно имеет по крайней мере на один ранг больше, и поэтому число факторов s будет иметь . Тогда поиск минимально возможного количества удаляемой ковариации путем сокращения факторов (даже после вращения по некоторым критериям, таким как pc или minres) должен быть неоптимальным. Отказ от ответственности : это все еще гипотеза - трудно найти для ковариаций, структура которых не является самодельной, и все псевдослучайные эксперименты с самодельными примерами менее надежны, чем эмпирические случаи. ΨstdCstds>rs+1kΨopt
Готфрид Хелмс

Хорошо, я понимаю, что вы говорите. Моя точка зрения такова, что для большинства реальных ранг будет почти таким же, как , то есть . Если после этого просто вращать , это, вероятно, почти эквивалентно или очень близко к выполнению PCA на и не беспокоит FA вообще. С * = С - Ψ о р т С т п » к Ш Г СCC=CΨoptCrnkWrC
говорит амеба: восстанови Монику

Правда. Что ж, я подумал сделать это наиболее объяснимым, когда нужно найти «идеальный» случай, из которого мы сводим к практически вычислимым приближениям. <br> И теперь еще больше в пользу PCA ;-): допуск ложной корреляции в ошибке (во втором режиме приложения / логической статистики) позволяет результату снова приблизиться к одному из типов, который начался с извлечения ПК ...
Готфрид Хелмс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.