Создание единого индекса из нескольких основных компонентов или факторов, оставшихся от PCA / FA

Я использую Принципиальный компонентный анализ (PCA) для создания индекса, необходимого для моего исследования. Мой вопрос заключается в том, как мне создать единый индекс, используя оставшиеся основные компоненты, рассчитанные с помощью PCA.

Например, я решил сохранить 3 основных компонента после использования PCA и вычислил баллы для этих 3 основных компонентов. Каковы подходящие способы создания для каждого респондента единого индекса из этих 3 баллов?

Уместно ли добавлять 3 вычисленных балла для составного значения?
Или усреднить 3 балла, чтобы иметь такое значение?
Или я должен оставить только первый основной компонент (самый сильный) и использовать его счет в качестве индекса?

В качестве альтернативы можно использовать Факторный анализ (ФА), но остается тот же вопрос: как создать единый индекс, основанный на нескольких факторных показателях?

— user179313
источник

ПК некоррелированы по определению. Поэтому как переменные они никоим образом не дублируют информацию друг друга. Это означает, что нет причин создавать из них одно значение (составную переменную). Или, иногда, их умножение может представлять интерес, но не суммирование или усреднение.

— ttnphns

Я согласен с @ttnphns: ваши первые два варианта не имеют особого смысла, и все усилия по «объединению» трех компьютеров в один индекс кажутся ошибочными. Возьмите первый компьютер в качестве индекса или используйте совсем другой подход.

— говорит амеба: восстанови монику

@ttnphns некоррелированные, не независимые. Может быть избыточная информация, повторяемая на ПК, но не линейно.

— предположения

@amoeba Спасибо за напоминание. Я разработал версии для тега и его выдержки по адресу stats.stackexchange.com/tags/valuation/info .

— whuber

@ttnphns Вы бы хотели разместить здесь ответ на основании вашего комментария выше? Я только что начал щедрость здесь, потому что варианты этого вопроса продолжают появляться, и мы не можем закрыть их как дубликаты, потому что нигде нет удовлетворительного ответа.

— говорит амеба: восстанови Монику

Ответы:

Этот ответ является преднамеренно нематематическим и ориентирован на психолога, не являющегося статистиком (скажем), который спрашивает, может ли он суммировать / усреднять факторные оценки различных факторов, чтобы получить оценку «составного индекса» для каждого респондента.

Суммирование или усреднение оценок некоторых переменных предполагает, что переменные принадлежат одному измерению и являются взаимозаменяемыми мерами. (В вопросе «переменные» - это оценки компонентов или факторов , которые ничего не меняют, поскольку они являются примерами переменных.)

$(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ по отдельности. Коррелированные переменные, представляющие одно и то же измерение, могут рассматриваться как повторные измерения одной и той же характеристики, а разность или неэквивалентность их показателей как случайная ошибка. Поэтому warranded в сумме / усреднить результаты , так как случайные ошибки , как ожидается, компенсируют друг друга в спе .

$X$ $Y$

$\sqrt{.8^2+.8^2} \approx 1.13$ $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

$w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ устанавливаются постоянными для всех респондентов i, что является причиной недостатка. Чтобы соотнести двумерное отклонение респондента - по кругу или эллипсу - необходимо ввести весовые коэффициенты, зависящие от его оценок; Евклидово расстояние, рассмотренное ранее, на самом деле является примером такой взвешенной суммы с весами, зависящими от значений. И если для вас важно включить неравные дисперсии переменных (например, главных компонентов, как в вопросе), вы можете вычислить взвешенное евклидово расстояние, расстояние, которое будет найдено на рис. 2 после удлинения круга.

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$

(Вы можете заявить: «Я сделаю все данные положительными и вычислю сумму (или среднюю) с чистой совестью, так как выбрал расстояние в Манхэттене», но, пожалуйста, подумайте - имеете ли вы право свободно перемещать источник? Основные компоненты или факторы, например, извлекаются при условии, что данные центрированы по среднему значению, что имеет смысл. Другое происхождение породило бы другие компоненты / факторы с другими показателями. Нет, большую часть времени вы можете не играть с источником - локус «типичного респондента» или «черты нулевого уровня» - как вы хотите играть.)

Подводя итог, можно сказать , что если цель составной конструкции состоит в том, чтобы отразить позиции респондента относительно некоторого «нулевого» или типичного местоположения, но переменные вряд ли вообще коррелируют, какое-то пространственное расстояние от этого источника, а не среднее (или сумма), взвешенное или невзвешенный, должен быть выбран.

Что ж, среднее значение (сумма) будет иметь смысл, если вы решите рассматривать (некоррелированные) переменные как альтернативные способы измерения одного и того же . Таким образом, вы сознательно игнорируете различную природу переменных. Другими словами, вы сознательно оставляете Рис. 2 в пользу Рис. 1: вы «забываете», что переменные независимы. Тогда - делай сумму или среднее. Например, баллы по «материальному благосостоянию» и «эмоциональному благополучию» могут быть усреднены, а также по «пространственному IQ» и «словесному IQ». Этот тип чисто прагматичныйНе одобренные сатистически композиты называются индексами батареи (набор тестов или вопросников, которые измеряют несвязанные вещи или коррелированные вещи, чьи корреляции, которые мы игнорируем, называется батареей). Индексы батареи имеют смысл только в том случае, если баллы имеют одинаковое направление (например, богатство и эмоциональное здоровье рассматриваются как «лучший» полюс). Их полезность за пределами узких специальных настроек ограничена.

Если переменные являются промежуточными отношениями - они значительно коррелируют, но недостаточно сильно, чтобы рассматривать их как дубликаты, альтернативы друг другу, мы часто суммируем (или усредняем) их значения взвешенным способом. Затем эти веса должны быть тщательно спроектированы, и они должны так или иначе отражать корреляции. Это то, что мы делаем, например, с помощью PCA или факторного анализа (FA), где мы специально вычисляем оценки компонентов / факторов. Если ваши переменные уже являются компонентными или факторными показателями (как здесь говорится в вопросе OP) и они коррелированы (из-за наклонного вращения), вы можете подвергнуть их (или непосредственно матрицу загрузки) PCA / FA второго порядка, чтобы найти веса и получить ПК / фактор второго порядка, который будет служить для вас «составным индексом».

Но если ваши оценки компонентов / факторов были некоррелированными или слабо коррелированными, то нет никаких статистических причин ни для того, чтобы их суммировать прямо, ни с помощью определения весов. Вместо этого используйте некоторое расстояние. Проблема с расстоянием состоит в том, что оно всегда положительно: вы можете сказать, насколько нетипичен респондент, но не можете сказать, находится ли он «выше» или «ниже». Но это цена, которую вы должны заплатить за требование одного индекса из мультивалютного пространства. Если вы хотите и отклонение и знак в таком пространстве, я бы сказал, что вы слишком требовательны.

В последнем пункте OP спрашивает, правильно ли принимать за показатель «только индекс» только одну, самую сильную переменную в отношении ее дисперсии (в данном случае 1-го главного компонента). Это имеет смысл, если этот ПК намного сильнее, чем остальные ПК. Хотя кто-то может спросить: «Если он намного сильнее, почему вы не извлекли / сохранили только его единственное?».

— ttnphns
источник

Создание составного индекса с использованием PCA из ссылок временного ряда на http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

В этой статье на странице 19 авторы упоминают способ создания Нестандартизированного индекса (НСИ) с использованием соотношения вариаций, объясняемых каждым фактором, к общему отклонению, объясняемому выбранными факторами. Этот НСИ был затем нормализован.

— САШИН ГАРГ
источник

Этот раздел на странице 19 делает именно то сомнительное, проблемное добавление яблок и апельсинов, о чем меня и амеба предупредили в комментариях выше. Суммирование некоррелированных переменных в одном индексе вряд ли имеет какое-либо статистическое значение.

— ttnphns

Иногда мы добавляем конструкции / шкалы / тесты, которые не связаны и измеряют разные вещи. Это будет индекс батареи (тесты, которые считаются совершенно разными / некоррелированными, называются «батареей»). Индекс батареи может иметь местный прагматический смысл, хотя он почти не имеет статистического значения, как сказано в предыдущем комментарии.

— ttnphns

см. также вопрос stats.stackexchange.com/q/236786/3277 .

— ttnphns

-1 из-за того что написано выше.

— говорит амеба, восстанови Монику