Как рассчитать псевдо- из логистической регрессии R?

46

Отчет Кристофера Мэннинга по логистической регрессии в R показывает логистическую регрессию в R следующим образом:

ced.logr <- glm(ced.del ~ cat + follows + factor(class), 
  family=binomial)

Некоторый вывод:

> summary(ced.logr)
Call:
glm(formula = ced.del ~ cat + follows + factor(class),
    family = binomial("logit"))
Deviance Residuals:
Min            1Q    Median       3Q      Max
-3.24384 -1.34325   0.04954  1.01488  6.40094

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -1.31827    0.12221 -10.787 < 2e-16
catd          -0.16931    0.10032  -1.688 0.091459
catm           0.17858    0.08952   1.995 0.046053
catn           0.66672    0.09651   6.908 4.91e-12
catv          -0.76754    0.21844  -3.514 0.000442
followsP       0.95255    0.07400  12.872 < 2e-16
followsV       0.53408    0.05660   9.436 < 2e-16
factor(class)2 1.27045    0.10320  12.310 < 2e-16
factor(class)3 1.04805    0.10355  10.122 < 2e-16
factor(class)4 1.37425    0.10155  13.532 < 2e-16
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 958.66 on 51 degrees of freedom
Residual deviance: 198.63 on 42 degrees of freedom
AIC: 446.10
Number of Fisher Scoring iterations: 4

Затем он подробно расскажет о том, как интерпретировать коэффициенты, сравнивать разные модели и так далее. Довольно полезно

Тем не менее, сколько дисперсии учитывает модель? Страница Stata на логистической регрессии говорит:

Технически, не может быть вычислен таким же образом в логистической регрессии, как в регрессии OLS. Псевдо- в логистической регрессии определяется как , где представляет логарифмическую вероятность для модели «только константа», а - логарифмическую вероятность для полной модели с постоянные и предикторы. $R^2$ $R^2$ $1 - \frac{L1}{L0}$ $L0$ $L1$

Я понимаю это на высоком уровне. Модель только для констант будет без каких-либо параметров (только член перехвата). Логарифмическая вероятность - это мера того, насколько точно параметры соответствуют данным. На самом деле, Мэннинг рода намеки , что девиация может быть . Возможно, нулевое отклонение только для констант, а остаточное отклонение составляет модели? Однако я не совсем кристально чист. $-2 \log L$ $-2 \log L$

Может ли кто-нибудь проверить, как на самом деле вычисляется псевдо- в R, используя этот пример? $R^2$

r logistic log-likelihood

— dfrankow
источник

5

Обычно отличные страницы статистических вычислений UCLA допускают здесь редкую ошибку - в выражении для псевдо- не должно быть скобок , то есть это должно быть . (Извините за не отвечать на ваши вопросы , как я собираюсь голова на кровать - я уверен , что кто - то другое ответил , прежде чем это я просыпаюсь достаточно , чтобы сделать это.)

R^{2}

$R^2$

1 - L_{1} / L_{0}

$1-L_1/L_0$

— OneStop

6

Здесь был задан несколько связанный с этим вопрос, Логистическая регрессия: о какой мере псевдо R-квадрата следует сообщать (Cox & Snell или Nagelkerke)? ,

— ЧЛ

3

На этой странице обсуждаются несколько псевдо-R ^ 2s.

— dfrankow

2

Примечание: связанный вопрос не любит псевдо-R ^ 2s, но предпочитает перекрестную проверку или прогнозирование теста на вынос.

— dfrankow

49

Не забудьте пакет rms Фрэнка Харрелла. Вы найдете все необходимое для подбора и проверки GLM.

Вот игрушечный пример (только с одним предиктором):

set.seed(101)
n <- 200
x <- rnorm(n)
a <- 1
b <- -2
p <- exp(a+b*x)/(1+exp(a+b*x))
y <- factor(ifelse(runif(n)<p, 1, 0), levels=0:1)
mod1 <- glm(y ~ x, family=binomial)
summary(mod1)

Это дает:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.8959     0.1969    4.55 5.36e-06 ***
x            -1.8720     0.2807   -6.67 2.56e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 258.98  on 199  degrees of freedom
Residual deviance: 181.02  on 198  degrees of freedom
AIC: 185.02

Теперь, используя lrmфункцию,

require(rms)
mod1b <- lrm(y ~ x)

Вскоре вы получите множество индексов соответствия модели, включая Nagelkerke , с : $R^2$ print(mod1b)

Logistic Regression Model

lrm(formula = y ~ x)

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       

Obs           200    LR chi2      77.96    R2       0.445    C       0.852    
 0             70    d.f.             1    g        2.054    Dxy     0.705    
 1            130    Pr(> chi2) <0.0001    gr       7.801    gamma   0.705    
max |deriv| 2e-08                          gp       0.319    tau-a   0.322    
                                           Brier    0.150                     


          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept  0.8959 0.1969  4.55  <0.0001 
x         -1.8720 0.2807 -6.67  <0.0001

Здесь и вычисляется как , где LR - это stat (сравнивая две вложенные модели, которые вы описали), тогда как знаменатель - это только максимальное значение для . Для идеальной модели мы ожидаем , то есть . $R^2=0.445$ $\left(1-\exp(-\text{LR}/n)\right)/\left(1-\exp(-(-2L_0)/n)\right)$ $\chi^2$ $R^2$ $\text{LR}=2L_0$ $R^2=1$

Рукой,

> mod0 <- update(mod1, .~.-x)
> lr.stat <- lrtest(mod0, mod1)
> (1-exp(-as.numeric(lr.stat$stats[1])/n))/(1-exp(2*as.numeric(logLik(mod0)/n)))
[1] 0.4445742
> mod1b$stats["R2"]
       R2 
0.4445742

Эвут У. Штейерберг обсудил использование с GLM в своей книге « Клинические прогностические модели» (Springer, 2009, § 4.2.2, стр. 58-60). По сути, взаимосвязь между статистикой LR и Нагелкерке приблизительно линейна (она будет более линейной с низким уровнем заболеваемости). Теперь, как обсуждалось в предыдущей ветке, на которую я ссылался в своем комментарии, вы можете использовать другие показатели, такие как статистика которая эквивалентна статистике AUC (в приведенной выше ссылке также есть хорошая иллюстрация, см. Рисунок 4.6). $R^2$ $R^2$ $c$

— хл
источник

Не могли бы вы объяснить, как вы получили .445? Я использовал 1-exp (-77.96 / 200), но получил .323. Что я делаю не так? Благодарю.

2

Какой из них является Nagelkerke R2?

— JetLag

1

@JetLag В разделе «Индексы дискриминации» Nagelkerke сокращенно обозначается как R2 (т. Е. 0,445). Вы можете проверить это с помощью функции NagelkerkeR2 () из пакета fmsb.

— Чернофф

11

Чтобы легко получить псевдо Макфаддена для подобранной модели в R, используйте пакет "pscl" Саймона Джекмана и команду pR2. http://cran.r-project.org/web/packages/pscl/index.html $R^2$

— user48729
источник

7

Будьте осторожны с расчетом псевдо- $R^2$ :

Псевдо- Макфаддена рассчитывается как , где - логарифмическая вероятность полной модели, а - логарифмическая вероятность модели с единственным перехватом. $R^2$ $R^2_M=1- \frac{ln\hat{L}_{full}}{ln\hat{L}_{null}}$ $ln\hat{L}_{full}$ $ln\hat{L}_{full}$

Два подхода для расчета псевдо- : $R^2$

Использовать отклонение: поскольку , $deviance = -2*ln(L_{full})$ $null.deviance = -2*ln(L_{null})$

pR2 = 1 - mod$deviance / mod$null.deviance # works for glm

Но вышеупомянутый подход не работает для псевдо вне образца $R^2$

Используйте функцию "logLik" в R и определении (также работает для образца)

mod_null <- glm(y~1, family = binomial, data = insample) 1- logLik(mod)/logLik(mod_null)

Это может быть немного изменено для вычисления псевдо вне образца $R^2$

Пример:

псевдо-R вне образца

Обычно псевдо- вне вычисляется как где - это логарифмическая вероятность для периода отсутствия выборки на основе оценочных коэффициентов периода выборки, а - логарифмическая вероятность для модели только для перехвата периода выборки. $R^2$

R_{p}^{2} = 1 - \frac{L_{e s t . o u t}}{L_{n u l l . o u t}},

$R_p^2=1−\frac{L_{est.out}}{L_{null.out}},$

L_{e s t . o u t}

$L_{est.out}$

L_{n u l l . o u t}

$L_{null.out}$

коды:

pred.out.link <- predict(mod, outSample, type = "link") mod.out.null <- gam(Default~1, family = binomial, data = outSample) pR2.out <- 1 - sum(outSample$y * pred.out.link - log(1 + exp(pred.out.link))) / logLik(mod.out.null)

— Сяоруй Чжу
источник

d e v i a n c e = - 2 * l n (L_{f u l l})

$deviance = -2*ln(L_{full})$ не действует для биномиального типа, просто посмотрите model1 <- glm(cbind(ncases, ncontrols) ~ agegp + tobgp * alcgp, data = esoph, family = binomial)и вызовите model1$devianceи -2*logLik(model1).

— любопытно

6

если отклонение было пропорционально логарифмической вероятности, и каждый использует определение (см., например, McFadden здесь )

pseudo R^2 = 1 - L(model) / L(intercept)

тогда псевдо- выше будет = 0.7928 $R^2$ $1 - \frac{198.63}{958.66}$

Вопрос в том, пропорционально ли сообщаемое отклонение логарифмической вероятности?

— dfrankow
источник

3

Этот псевдо-R ^ 2 совершенно не согласуется с Нагелкерке R ^ 2 из ответа @ chl.

— dfrankow

Девиация была определена как -2 * LL, когда я учился в школе.

— DWin

@dfrankow не согласен, потому что Нагелкерке - это нормализация Кокса и Снелла R2, которая отличается от Макфадденса R2.

— Колин

0

Если его из образца , то я считаю , что должны быть вычислены в соответствии с лог-правдоподобия как , где является логарифмическая вероятность тестовых данных с прогнозирующей моделью, откалиброванной на тренировочном наборе, а - логарифмическая вероятность тестовых данных с моделью, в которой только константа установлена на тренировочном наборе, а затем используйте подобранную константа для прогнозирования на тестовом множестве, вычисляющая вероятности и, следовательно, получающая логарифмическую вероятность. $R^2$ $R^2=1-\frac{ll_{full}}{ll_{constant}}$ $ll_{full}$ $ll_{constant}$

Обратите внимание, что в линейной регрессии, аналогично, вне выборки вычисляется как , в частности, если мы посмотрим на знаменательный член , прогноз использует среднее значение по обучающему набору, . Это похоже на то, что если мы подгоняем модель в обучающих данных только с константой, то мы должны минимизировать , что приводит к , тогда эта простая прогнозирующая модель с постоянной константой является моделью, используемой как benchamrk (т.е. в знаменателе oos $R^2$ $R^2=1-\frac{\sum_{i}(y_{i}-\hat{y}_i)^2}{\sum_{i}(y_{i}-\overline{y}_{train})^2}$ $\sum_{i}(y_{i}-\overline{y}_{train})^2$ $\overline{y}_{train}$ $\sum_{i}(y_i-\beta_0)^2$ $\hat{\beta}_0=\overline{y}_{train}$ $R^2$ член) для расчета вне образца . $R^2$

— cthraves
источник