Расчет

Я читал о расчете значений в смешанных моделях и после прочтения FAQ по R-sig, других постов на этом форуме (я бы связал несколько, но мне не хватает репутации) и нескольких других ссылок, которые я понимаю, используя Значения в контексте смешанных моделей сложны. $R^2$ $R^2$

Однако недавно я наткнулся на эти две статьи ниже. Хотя эти методы выглядят многообещающе (для меня), я не являюсь статистиком, и поэтому мне было интересно, будет ли кто-либо еще иметь представление о методах, которые они предлагают, и о том, как они будут сравниваться с другими методами, которые были предложены.

Накагава, Шиничи и Хольгер Шилзет. «Общий и простой метод получения R2 из обобщенных линейных моделей со смешанными эффектами». Методы в экологии и эволюции 4.2 (2013): 133-142.

Джонсон, Пол CD. «Расширение модели R2GLMM компании Nakagawa & Schielzeth для моделей со случайными уклонами». Методы в экологии и эволюции (2014).

Метод is также может быть реализован с использованием функции r.squaredGLMM в пакете MuMIn, которая дает следующее описание метода.

Для моделей со смешанными эффектами можно разделить на два типа. Маргинальное число представляет дисперсию, объясняемую фиксированными коэффициентами, и определяется как: Условное интерпретируется как дисперсия, объясняемая как постоянными, так и случайными факторами (т. е. всей моделью), и рассчитывается по уравнению: где - дисперсия фиксированных компонентов эффекта, а - сумма всех компонент дисперсии (группы, отдельных и т. д.), $R^2$ $R^2$
$R_{G L M M} (m)^{2} = \frac{σ_{f}^{2}}{σ_{f}^{2} + \sum (σ_{l}^{2}) + σ_{e}^{2} + σ_{d}^{2}}$ $R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}$ $R^2$ $R_{G L M M} (c)^{2} = \frac{(σ_{f}^{2} + \sum (σ_{l}^{2}))}{(σ_{f}^{2} + \sum (σ_{l}^{2}) + σ_{e}^{2} + σ_{d}^{2}}$ $R_{GLMM}(c)^2= \frac{(σ_f^2 + \sum(σ_l^2))}{(σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}$ $σ_f^2$ $\sum(σ_l^2)$ $σ_l^2$ - дисперсия, обусловленная аддитивной дисперсией, а - дисперсия, от распределения. $σ_d^2$

В своем анализе я смотрю на продольные данные и меня в первую очередь интересует дисперсия, объясняемая фиксированными эффектами в модели

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395

r mixed-model r-squared lme4-nlme

— Andrews
источник

Я отредактировал ваше сообщение, чтобы использовать форматирование mathjax. Пожалуйста, проверьте еще раз, чтобы я случайно не внес никаких ошибок.

— Sycorax сообщает, что восстановит Монику

Насколько я понимаю, в вашем вопросе отсутствует реальный вопрос. Можете ли вы уточнить, что вы хотите? Рекомендация, что использовать?

— Хенрик

Привет @Henrik, меня интересовала рекомендация о том, что использовать, да, но также и в более широком смысле, как разные методы сравниваются друг с другом и каковы различия.

— Эндрюс

Я считаю, что исходные и приведенные выше уравнения неверны. Это не связано с изменениями @ user777. Два слагаемых справа должны быть в знаменателе. Смотрите это .

— Сирил

Вероятно, эта ошибка была вызвана тем, что в документации пакета MuMIn отсутствуют закрывающие скобки .

— Сирил

Ответы:

Я отвечаю, вставив ответ Дугласа Бейтса в список рассылки R-Sig-ME 17 декабря 2014 года по вопросу о том, как рассчитать статистику для обобщенных линейных смешанных моделей, которую, я считаю, необходимо прочитать всем, кто интересуется такая вещь. Бейтс является оригинальным автором пакета для R и соавтором , а также соавтором известной книги о смешанных моделях , и CV получит пользу от наличия текста в ответе, а не просто от ссылки на Это. $R^2$ lme4nlme

Я должен признать, что немного нервничал, когда люди говорят о «R2 для GLMM». R2 для линейной модели четко определен и обладает многими желательными свойствами. Для других моделей можно определить разные величины, отражающие некоторые, но не все эти свойства. Но это не вычисление R2 в смысле получения числа, обладающего всеми свойствами, которыми обладает R2 для линейных моделей. Обычно существует несколько различных способов определения такой величины. Особенно для GLM и GLMM, прежде чем вы сможете определить «пропорцию объясненной дисперсии», вам сначала нужно определить, что вы подразумеваете под «дисперсией ответа».

Путаница в том, что представляет собой R2 или степени свободы любых других величин, связанных с линейными моделями, применительно к другим моделям возникает из-за смешения формулы с понятием. Хотя формулы получены из моделей, деривация часто включает в себя довольно сложную математику. Чтобы избежать потенциально запутанного деривации и просто «перейти к погоне», проще представить формулы. Но формула не является концепцией. Обобщение формулы не эквивалентно обобщению концепции. И эти формулы практически никогда не используются на практике, особенно для обобщенных линейных моделей, анализа дисперсии и случайных эффектов. У меня есть «мета-теорема», согласно которой единственная величина, фактически рассчитанная по формулам, приведенным во вводных текстах, - это выборочное среднее.

Может показаться, что я ворчливый старик из-за этого, а может, и так, но опасность состоит в том, что люди ожидают, что «R2-подобное» количество будет иметь все свойства R2 для линейных моделей. Не может Невозможно обобщить все свойства для гораздо более сложной модели, такой как GLMM.

Однажды я был в комитете, который рассматривал кандидатскую диссертацию. Кандидатура. Было предложено изучить 9 различных формул, которые можно было бы рассмотреть как способы вычисления R2 для нелинейной регрессионной модели, чтобы определить, какая из них «лучшая». Конечно, это можно сделать с помощью имитационного исследования, в котором используется только пара разных моделей и только несколько разных наборов значений параметров для каждой. Мое предположение, что это совершенно бессмысленное упражнение, не было встречено тепло.

— Роберт Лонг
источник

После просмотра литературы я наткнулся на следующую статью, в которой сравниваются несколько различных методов вычисления значений для смешанных моделей, где методы (MVP) эквивалентны методу, предложенному Накагавой и Шилзетом. $R^2$ $R^2$

Lahuis, D и др. (2014) Объяснил дисперсионные меры для многоуровневых моделей. Организационные методы исследования.

В целом, большинство показателей (Формула, Формула, (OLS) и (MVP)) показали приемлемые уровни смещения, согласованности и эффективности во всех условиях и моделях. Кроме того, разница в средних значениях смещения для этих мер была небольшой. Формула и Формула были наименее предвзятыми в моделях случайного пересечения, а Формула и (MVP) были наименее предвзятыми в моделях со случайным наклоном. С точки зрения эффективности, Формула и (MVP) имели самые низкие значения стандартного отклонения в модели случайного пересечения. (MVP) и (OLS) имели самые низкие стандартные отклонения в модели со случайным наклоном. В общем, Формула не была эффективной оценщиком. $R^2$ $R^2$ $R^2$ $R^2$ $R^2$ $R^2$

— Andrews
источник