Я нашел формулу для псевдо в книге Расширение линейной модели с помощью R, Джулиан Дж. Фарауэй (стр. 59).
Это общая формула для псевдо для GLM?
Я нашел формулу для псевдо в книге Расширение линейной модели с помощью R, Джулиан Дж. Фарауэй (стр. 59).
Это общая формула для псевдо для GLM?
Ответы:
Существует большое количество псевдо- для GLiM. Отличный справочный сайт по статистике UCLA имеет полный обзор их здесь . Тот, который вы перечислите, называется псевдо- R ^ 2 Макфаддена . Относительно типологии UCLA, он похож на в том смысле, что он указывает улучшение улучшенной модели по сравнению с нулевой моделью. Некоторые статистические программы, в частности SPSS, если я правильно помню, распечатывают псевдо- R ^ 2 Макфаддена по умолчанию с результатами некоторых анализов, таких как логистическая регрессия, так что я подозреваю, что это довольно часто, хотя псевдо- R Кокса и Снелла и Нагелкерке ^ 2 с может быть даже больше. Однако псевдо- R ^ 2 Макфаддена не обладает всеми (нет псевдо- делает). Если кто-то заинтересован в использовании псевдо- для понимания модели, я настоятельно рекомендую прочитать эту прекрасную ветку резюме: какую меру псевдо- следует сообщить о логистической регрессии (Cox & Snell или Nagelkerke)? (Для чего это стоит, самого скользкий , чем люди понимают, большая демонстрацию , которую можно увидеть в @ whuber Ответит здесь: Is ? Полезно или опасно )
R дает нулевое и остаточное отклонение в выходных данных, glm
так что вы можете сделать именно такое сравнение (см. Две последние строки ниже).
> x = log(1:10)
> y = 1:10
> glm(y ~ x, family = poisson)
>Call: glm(formula = y ~ x, family = poisson)
Coefficients:
(Intercept) x
5.564e-13 1.000e+00
Degrees of Freedom: 9 Total (i.e. Null); 8 Residual
Null Deviance: 16.64
Residual Deviance: 2.887e-15 AIC: 37.97
Вы также можете извлечь эти значения из объекта с помощью model$null.deviance
иmodel$deviance
summary.glm
. Что касается того, является ли это определение общепринятым, потребовало бы некоторого вида обзора. Я бы сказал, что это не особенно редко, потому что я видел это раньше, но не то, что обязательно широко используется.
Предложенная вами формула была предложена Maddala (1983) и Magee (1990) для оценки R в квадрате по логистической модели. Поэтому я не думаю, что это применимо ко всей модели glm (см. Книгу «Современные методы регрессии» Томаса П. Райана на странице 266).
Если вы сделаете ложный набор данных, вы увидите, что он недооценивает R в квадрате ... для гауссовского glm в каждом примере.
Я думаю, что для гауссовского GLM вы можете использовать базовую формулу (лм) R в квадрате ...
R2gauss<- function(y,model){
moy<-mean(y)
N<- length(y)
p<-length(model$coefficients)-1
SSres<- sum((y-predict(model))^2)
SStot<-sum((y-moy)^2)
R2<-1-(SSres/SStot)
Rajust<-1-(((1-R2)*(N-1))/(N-p-1))
return(data.frame(R2,Rajust,SSres,SStot))
}
А для логистики (или биномиального семейства в r) я бы использовал предложенную вами формулу ...
R2logit<- function(y,model){
R2<- 1-(model$deviance/model$null.deviance)
return(R2)
}
До сих пор для Пуассона GLM я использовал уравнение из этого поста.
/programming/23067475/how-do-i-obtain-pseudo-r2-measures-in-stata-when-using-glm-regression
Существует также отличная статья о псевдо R2 доступна на исследовательских ворот ... вот ссылка:
Я надеюсь, что это поможет.
1-summary(GLM)$deviance/summary(GLM)$null.deviance
и вы увидите, что R2 соответствует значению R2 обычной регрессии OLS, поэтому приведенный выше ответ верен! Смотрите также мой пост здесь - stats.stackexchange.com/questions/412580/…
Пакет R modEvA
вычисляет D-Squared ,
как , 1 - (mod$deviance/mod$null.deviance)
как упомянуто Дэвид Дж Харрис
set.seed(1)
data <- data.frame(y=rpois(n=10, lambda=exp(1 + 0.2 * x)), x=runif(n=10, min=0, max=1.5))
mod <- glm(y~x,data,family = poisson)
1- (mod$deviance/mod$null.deviance)
[1] 0.01133757
library(modEvA);modEvA::Dsquared(mod)
[1] 0.01133757
D-Squared или объясненное отклонение модели представлено в (Guisan & Zimmermann 2000) https://doi.org/10.1016/S0304-3800(00)00354-9
Colin Cameron, A., & Windmeijer, F. A. (1997). An R-squared measure of goodness of fit for some common nonlinear regression models. Journal of Econometrics, 77(2), 329-342.