Этот ответ является преднамеренно нематематическим и ориентирован на психолога, не являющегося статистиком (скажем), который спрашивает, может ли он суммировать / усреднять факторные оценки различных факторов, чтобы получить оценку «составного индекса» для каждого респондента.
Суммирование или усреднение оценок некоторых переменных предполагает, что переменные принадлежат одному измерению и являются взаимозаменяемыми мерами. (В вопросе «переменные» - это оценки компонентов или факторов , которые ничего не меняют, поскольку они являются примерами переменных.)
(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYпо отдельности. Коррелированные переменные, представляющие одно и то же измерение, могут рассматриваться как повторные измерения одной и той же характеристики, а разность или неэквивалентность их показателей как случайная ошибка. Поэтому warranded в сумме / усреднить результаты , так как случайные ошибки , как ожидается, компенсируют друг друга в спе .
XY
.82+.82−−−−−−−√≈1.131.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0
wXXi+wYYiXYwXwYустанавливаются постоянными для всех респондентов i, что является причиной недостатка. Чтобы соотнести двумерное отклонение респондента - по кругу или эллипсу - необходимо ввести весовые коэффициенты, зависящие от его оценок; Евклидово расстояние, рассмотренное ранее, на самом деле является примером такой взвешенной суммы с весами, зависящими от значений. И если для вас важно включить неравные дисперсии переменных (например, главных компонентов, как в вопросе), вы можете вычислить взвешенное евклидово расстояние, расстояние, которое будет найдено на рис. 2 после удлинения круга.
|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=−.81.60
(Вы можете заявить: «Я сделаю все данные положительными и вычислю сумму (или среднюю) с чистой совестью, так как выбрал расстояние в Манхэттене», но, пожалуйста, подумайте - имеете ли вы право свободно перемещать источник? Основные компоненты или факторы, например, извлекаются при условии, что данные центрированы по среднему значению, что имеет смысл. Другое происхождение породило бы другие компоненты / факторы с другими показателями. Нет, большую часть времени вы можете не играть с источником - локус «типичного респондента» или «черты нулевого уровня» - как вы хотите играть.)
Подводя итог, можно сказать , что если цель составной конструкции состоит в том, чтобы отразить позиции респондента относительно некоторого «нулевого» или типичного местоположения, но переменные вряд ли вообще коррелируют, какое-то пространственное расстояние от этого источника, а не среднее (или сумма), взвешенное или невзвешенный, должен быть выбран.
Что ж, среднее значение (сумма) будет иметь смысл, если вы решите рассматривать (некоррелированные) переменные как альтернативные способы измерения одного и того же . Таким образом, вы сознательно игнорируете различную природу переменных. Другими словами, вы сознательно оставляете Рис. 2 в пользу Рис. 1: вы «забываете», что переменные независимы. Тогда - делай сумму или среднее. Например, баллы по «материальному благосостоянию» и «эмоциональному благополучию» могут быть усреднены, а также по «пространственному IQ» и «словесному IQ». Этот тип чисто прагматичныйНе одобренные сатистически композиты называются индексами батареи (набор тестов или вопросников, которые измеряют несвязанные вещи или коррелированные вещи, чьи корреляции, которые мы игнорируем, называется батареей). Индексы батареи имеют смысл только в том случае, если баллы имеют одинаковое направление (например, богатство и эмоциональное здоровье рассматриваются как «лучший» полюс). Их полезность за пределами узких специальных настроек ограничена.
Если переменные являются промежуточными отношениями - они значительно коррелируют, но недостаточно сильно, чтобы рассматривать их как дубликаты, альтернативы друг другу, мы часто суммируем (или усредняем) их значения взвешенным способом. Затем эти веса должны быть тщательно спроектированы, и они должны так или иначе отражать корреляции. Это то, что мы делаем, например, с помощью PCA или факторного анализа (FA), где мы специально вычисляем оценки компонентов / факторов. Если ваши переменные уже являются компонентными или факторными показателями (как здесь говорится в вопросе OP) и они коррелированы (из-за наклонного вращения), вы можете подвергнуть их (или непосредственно матрицу загрузки) PCA / FA второго порядка, чтобы найти веса и получить ПК / фактор второго порядка, который будет служить для вас «составным индексом».
Но если ваши оценки компонентов / факторов были некоррелированными или слабо коррелированными, то нет никаких статистических причин ни для того, чтобы их суммировать прямо, ни с помощью определения весов. Вместо этого используйте некоторое расстояние. Проблема с расстоянием состоит в том, что оно всегда положительно: вы можете сказать, насколько нетипичен респондент, но не можете сказать, находится ли он «выше» или «ниже». Но это цена, которую вы должны заплатить за требование одного индекса из мультивалютного пространства. Если вы хотите и отклонение и знак в таком пространстве, я бы сказал, что вы слишком требовательны.
В последнем пункте OP спрашивает, правильно ли принимать за показатель «только индекс» только одну, самую сильную переменную в отношении ее дисперсии (в данном случае 1-го главного компонента). Это имеет смысл, если этот ПК намного сильнее, чем остальные ПК. Хотя кто-то может спросить: «Если он намного сильнее, почему вы не извлекли / сохранили только его единственное?».