Совсем недавно я начал изучать обобщенные линейные смешанные модели и использовал R для изучения того, какое значение имеет отношение к членству в группе как к фиксированному, так и к случайному эффекту. В частности, я смотрю на пример набора данных, который обсуждался здесь:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Как показано в этом уроке, эффект «Доктор ID» заметен, и я ожидал, что смешанная модель со случайным перехватом даст лучшие результаты. Однако сравнение значений AIC для двух методов показывает, что эта модель хуже:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Итак, мои вопросы:
(1) Уместно ли сравнивать значения AIC, предоставляемые двумя функциями? Если так, то почему модель с фиксированным эффектом работает лучше?
(2) Как лучше всего определить, являются ли фиксированные или случайные эффекты более важными (т. Е. Количественно определить, что изменчивость, обусловленная врачом, важнее, чем характеристики пациента)?
DID
качестве как фиксированный эффект, и случайного перехвата во 2 - й модели. Более того, наличие фиксированного эффекта в 1-й модели означает, что выбор b / t этих 2 будет о том, каким образом думать о влиянииDID
, а не о том, нужно ли его включать. С другой стороны, я заметил, что у вас есть предмет (2); Вы хотели иметь предмет (1) где-нибудь?