Почему вы прогнозируете по модели смешанного эффекта, не включая случайные эффекты для прогноза?

Это скорее концептуальный вопрос, но по мере использования Rя буду ссылаться на пакеты в R. Если цель состоит в том, чтобы подогнать линейную модель для целей прогнозирования, а затем делать прогнозы в тех случаях, когда случайные эффекты могут быть недоступны, есть ли польза от использования модели смешанных эффектов или вместо нее следует использовать модель с фиксированными эффектами?

Например, если у меня есть данные о весе или росте с некоторой другой информацией, и следующую модель, используя lme4, где субъект - это фактор с уровнями ( ): $n$ $n=no.samples$

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Затем я хочу иметь возможность прогнозировать вес по модели, используя новые данные о росте и возрасте. Очевидно, что дисперсия по субъектам в исходных данных фиксируется в модели, но возможно ли использовать эту информацию в прогнозе? Допустим, у меня есть новые данные о росте и возрасте, и я хочу прогнозировать вес, я могу сделать это следующим образом:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Это будет использовать predict.merMod, и я могу либо включить столбец для (новых) предметов newdf, или установить re.form =~0. В первом случае неясно, что модель делает с «новыми» предметными факторами, и во втором случае, будет ли отклонение от субъекта, зафиксированное в модели, просто игнорироваться (усредняться) для прогноза?

В любом случае мне кажется, что линейная модель с фиксированным эффектом может быть более подходящей. Действительно, если мое понимание верно, то модель с фиксированным эффектом должна предсказывать те же значения, что и смешанная модель, если случайный эффект не используется в прогнозе. Должно ли это быть так? В Rнем нет, например:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

дает разные результаты для:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age

r multiple-regression mixed-model lme4-nlme

— tribalsoul
источник

Можно было бы сделать прогноз для новой группы, которая не была включена в оценку

— kjetil b halvorsen

Да, но в таком случае зачем использовать модель со смешанным эффектом? Что это дает вам, что модель с фиксированным эффектом не дает, если вы игнорируете случайные эффекты в прогнозе?

— tribalsoul

Ну, это может дать лучшие оценки, потому что у вас есть лучшая (более правильная) модель структуры ошибок

— kjetil b halvorsen

Простой мысленный эксперимент: вы измерили вес и рост 5 младенцев после рождения. И вы измеряли это у тех же самых детей снова через два года. Между тем, вы измеряли вес и рост своей маленькой дочери почти каждую неделю, в результате чего для нее было получено 100 пар ценностей. Если вы используете модель со смешанными эффектами, проблем нет. Если вы используете модель с фиксированными эффектами, вы добавляете чрезмерный вес к измерениям от своей дочери до такой степени, что вы получите почти такую же модель, если бы использовали только данные от нее. Таким образом, важно не только сделать вывод, чтобы правильно моделировать повторные измерения или структуры неопределенности, но и сделать прогноз. В целом, вы не получаете одинаковые прогнозы из модели смешанных эффектов и модели с фиксированными эффектами (с нарушенными допущениями).

и я могу включить колонку для (новых) тем в newdf

Вы не можете прогнозировать предметы, которые не были частью исходных (обучающих) данных. Опять мысленный эксперимент: новый предмет ожирением. Как модель могла знать, что она находится в верхней части распределения случайных эффектов?

будет ли отклонение по субъекту, зафиксированное в модели, просто игнорироваться (усредняться) для прогноза

Если я вас правильно понимаю, тогда да. Модель дает оценку ожидаемого значения для населения (обратите внимание, что эта оценка все еще зависит от исходных предметов).

— Roland
источник

Спасибо за четкое объяснение и пример, все это имеет смысл. Тем не менее, где вы заявляете You can't predict for subjects which were not part of the original (training) data; Разве установка re.form=~0и прогнозирование на основе ожидаемого значения населения не позволяют мне сделать это? Конечно, модель не использует какую-либо специфическую для субъекта информацию в прогнозе, но справедливо ли сказать, что оценка по модели смешанного эффекта будет все же более точной, чем оценка по эквивалентной модели с фиксированным эффектом, где вариация по конкретному субъекту была игнорируются?

— Tribalsoul

Фиксированная модель не применима, поскольку ее допущения нарушаются. Вы должны использовать модель, которая включает структуру зависимости. re.form=~0дает вам прогноз на уровне населения, который является лучшим, что вы можете сделать для новых предметов.

— Роланд

У меня был тот же вопрос при использовании glmmLasso пакета в R. Автор пакета, Андреас Гролл, заявил, что процедура glmmLasso использует только фиксированные эффекты для прогнозирования новых предметов и фиксированные + случайные эффекты для существующих предметов в следующем периоде времени.

— RobertF