Различные описания по выбору модели на случайные эффекты линейных смешанных моделей инструктируют использовать REML. Я знаю разницу между REML и ML на некотором уровне, но я не понимаю, почему REML следует использовать, потому что ML смещен. Например, неправильно ли проводить LRT для параметра дисперсии модели нормального распределения с использованием ML (см. Код ниже)? Я не понимаю, почему в выборе модели важнее быть непредвзятым, чем быть МЛ. Я думаю, что окончательный ответ должен быть «потому что выбор модели работает лучше с REML, чем с ML», но я хотел бы знать немного больше, чем это. Я не читал деривации LRT и AIC (я не достаточно хорош, чтобы понимать их полностью), но если REML явно используется в деривациях, просто зная, что на самом деле будет достаточно (например,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value