Справочная информация: Примечание: мой набор данных и r-код включены ниже текста

Я хочу использовать AIC для сравнения двух моделей смешанных эффектов, сгенерированных с использованием пакета lme4 в R. Каждая модель имеет один фиксированный эффект и один случайный эффект. Фиксированный эффект отличается между моделями, но случайный эффект остается одинаковым между моделями. Я обнаружил, что если я использую REML = T, модель2 имеет более низкий показатель AIC, но если я использую REML = F, модель1 имеет более низкий показатель AIC.

Поддержка использования ML:

Zuur et al. (2009; стр. 122) предполагают, что «Для сравнения моделей с вложенными фиксированными эффектами (но с одинаковой случайной структурой) должна использоваться оценка ML, а не REML». Это указывает мне на то, что я должен использовать ML, так как мои случайные эффекты одинаковы в обеих моделях, но мои фиксированные эффекты отличаются. [Zuur et al. 2009. Модели смешанных эффектов и расширения в экологии с Р. Спрингером.]

Поддержка использования REML:

Тем не менее, я замечаю, что когда я использую ML, остаточная дисперсия, связанная со случайными эффектами, отличается между двумя моделями (модель1 = 136,3; модель2 = 112,9), но когда я использую REML, то же самое между моделями (модель1 = модель2 = 151,5). Для меня это означает, что я должен вместо этого использовать REML, чтобы случайная остаточная дисперсия оставалась неизменной между моделями с одинаковой случайной величиной.

Вопрос:

Разве не имеет смысла использовать REML, а не ML для сравнения моделей, в которых изменяются фиксированные эффекты, а случайные эффекты остаются прежними? Если нет, можете ли вы объяснить, почему или указать мне другую литературу, которая объясняет больше?

# Model2 "wins" if REML=T:
REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T)
REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T)
AIC(REMLmodel1,REMLmodel2)
summary(REMLmodel1)
summary(REMLmodel2)

# Model1 "wins" if REML=F:
MLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = F)
MLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = F)
AIC(MLmodel1,MLmodel2)
summary(MLmodel1)
summary(MLmodel2)

Dataset:

Response    Fixed1  Fixed2  Random1
5.20    A   A   1
32.50   A   A   1
6.57    A   A   2
24.77   A   B   3
41.69   A   B   3
34.29   A   B   4
1.80    A   B   4
10.00   A   B   5
15.56   A   B   5
4.44    A   C   6
21.65   A   C   6
9.20    A   C   7
4.11    A   C   7
12.52   B   D   8
0.25    B   D   8
27.34   B   D   9
11.54   B   E   10
0.86    B   E   10
0.68    B   E   11
4.00    B   E   11

— Это цифры
источник

Faraway (2006) Расширение линейной модели с помощью R (стр. 156): «Причина в том, что REML оценивает случайные эффекты, рассматривая линейные комбинации данных, которые удаляют фиксированные эффекты. Если эти фиксированные эффекты изменяются, вероятности две модели не будут напрямую сопоставимы ».

— jvh_ch

Хотя AIC основан на вероятности, насколько мне известно, он был разработан для целей прогнозирования. Как точно применить смешанную модель для прогнозирования?

— AdamO

@AdamO, не могли бы вы быть более точным? Подходящая смешанная модель может использоваться для прогнозирования либо на уровне популяции (прогнозировать ответы для неопределенной / неизвестной единицы путем установки условных режимов / BLUPs на ноль), либо на индивидуальном уровне (прогнозирование условий на оценках условных режимов / BLUPs ). Если вы можете быть более конкретным, это может быть хорошим новым резюме.

— Бен Болкер

Мне просто было неясно, как вы намеревались применить эту модель. Ничто в этой проблеме не указывает на то, какой прогноз, если таковой имеется, делается или если это было необходимо, и если да, то для какой цели.

— AdamO

Zuur et al. И Faraway (из комментария @ janhove выше) правы; Использование основанных на вероятности методов (включая AIC) для сравнения двух моделей с различными фиксированными эффектами, которые устанавливаются REML, обычно приводит к бессмысленности.

— Бен Болкер
источник

Спасибо @janhove, AdamO и Бен Болкер. Я также нашел эту ссылку от Аарона, чтобы помочь ответить на этот вопрос. В нем говорится: «Вероятность REML зависит от того, какие фиксированные эффекты присутствуют в модели, и поэтому несопоставимы, если фиксированные эффекты меняются. Обычно считается, что REML дает более точные оценки для случайных эффектов, поэтому обычный совет должен соответствовать Ваша лучшая модель с использованием REML для окончательного вывода и отчетности. "

— Это цифры

$X$ $\tilde{X}$ $\mathbb{R}^n$ $\tilde{X}$ $X$ $B$

$\tilde{X} = XB$

$B$ $X$ $B$

$V$ будет ковариационной матрицей, то давайте рассмотрим критерий REML, который мы должны максимизировать (я опускаю константу)

$|V|^{-1/2}|\tilde{X}'V^{-1}\tilde{X}|^{-1/2}\exp((y-\tilde{X}\tilde{\beta})'V^{-1}(y-\tilde{X}\tilde{\beta})/2)$

$\beta = (\tilde{X}V^{-1}\tilde{X})^{-1}y$ $X = \tilde{X}B$ , мы можем понять, что это можно переписать как

$|B||V|^{-1/2}||X'V^{-1}X|^{-1/2}|\exp((y-X\bar{\beta})'V^{-1}(y-X\bar{\beta})/2)$

где $\bar{\beta} = (XV^{-1}X)^{-1}y$ $|B|$

$|B| \neq 1$

Это пример того, почему REML не следует использовать при сравнении моделей с различными фиксированными эффектами. REML, однако, часто оценивает параметры случайных эффектов лучше, и поэтому иногда рекомендуется использовать ML для сравнений и REML для оценки единой (возможно, окончательной) модели.

— swmo
источник

REML или ML для сравнения двух моделей смешанных эффектов с разными фиксированными эффектами, но с одинаковым случайным эффектом?

Dataset: