Мне было бы интересно получить предложения о том, когда использовать « факторные баллы » над простой суммой баллов при построении шкал. Т.е. «уточненные» над «неочищенными» методами оценки фактора. Из DiStefano et al. (2009; pdf ), акцент добавлен:
Существует два основных класса методов вычисления коэффициента: уточненный и не уточненный. Не уточненные методы - это относительно простые кумулятивные процедуры для предоставления информации о размещении людей в распределении факторов. Простота поддается некоторым привлекательным особенностям, то есть нерафинированные методы легко вычисляются и легко интерпретируются. Усовершенствованные методы вычислений позволяют получить факторные оценки с использованием более сложных и технических подходов. Они являются более точными и сложными, чем не уточненные методы, и дают оценки, которые являются стандартизированными оценками.
На мой взгляд, если цель состоит в том, чтобы создать шкалу, которую можно использовать в разных исследованиях и ситуациях, тогда имеет смысл использовать простую сумму или среднюю оценку всех элементов шкалы. Но давайте скажем, что цель состоит в том, чтобы оценить эффекты лечения программы, и важный контраст находится в выборке - лечение против контрольной группы. Есть ли какая-либо причина, по которой мы могли бы предпочесть, чтобы коэффициенты факторов соответствовали суммам или средним?
Чтобы быть конкретными об альтернативах, возьмите этот простой пример:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
"more exact"
, Из линейно рассчитанных коэффициентов факторов метод регрессии является наиболее «точным» в том смысле, что «наиболее коррелирует с неизвестными значениями истинного коэффициента». Так что да, точнее (в рамках линейного алгебраического подхода), но не совсем точно.