Из элементарной статистики я узнал, что с общей линейной моделью, чтобы выводы были достоверными, наблюдения должны быть независимыми. Когда происходит кластеризация, независимость может больше не сохраняться, приводя к неверному выводу, если это не учитывается. Одним из способов учета такой кластеризации является использование смешанных моделей. Я хотел бы найти примерный набор данных, смоделированный или нет, который наглядно демонстрирует это. Я попытался использовать один из примеров наборов данных на сайте UCLA для анализа кластерных данных
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Если я что-то упустил, эти результаты достаточно схожи, поэтому я не думаю, что вывод с lm()
недействительным. Я посмотрел на некоторые другие примеры (например, 5.2 из Центра многоуровневого моделирования Бристольского университета ) и обнаружил, что стандартные ошибки также не сильно отличаются (меня не интересуют сами случайные эффекты от смешанной модели, но стоит отметить, что ICC от выхода смешанной модели составляет 0,42).
Итак, у меня следующие вопросы: 1) при каких условиях стандартные ошибки будут заметно отличаться при кластеризации, и 2) кто-то может привести пример такого набора данных (смоделированный или нет).