В чем разница между логистической регрессией и регрессией дробного ответа?


13

Насколько я знаю, разница между логистической моделью и моделью дробного отклика (frm) заключается в том, что зависимая переменная (Y), в которой frm равна [0,1], но логистика - {0, 1}. Кроме того, frm использует оценку квази-правдоподобия для определения своих параметров.

Обычно мы можем использовать glmдля получения логистических моделей glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Для frm мы меняем family = binomial(logit)на family = quasibinomial(logit).

Я заметил, что мы также можем использовать family = binomial(logit)для получения параметра frm, так как он дает те же оценочные значения. Смотрите следующий пример

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

возвращение,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

И для family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

возвращение,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Оцененные бета-значения для обоих familyодинаковы, но разница в значениях SE. Однако, чтобы получить правильный SE, мы должны использовать library(sandwich)как в этом посте .

Теперь мои вопросы:

  1. В чем разница между этими двумя кодами?
  2. Собираетесь ли вы получить надежный SE?

Если мое понимание неверно, пожалуйста, дайте несколько советов.

Ответы:


11

Если ваш вопрос: в чем разница между этими двумя кодами?

Взгляд на ?glmговорит See family for details of family functions, и взгляд ?familyпоказывает следующее описание:

Семейства квазибиномов и квазипуассонов отличаются от семейств биномов и пуассонов только тем, что параметр дисперсии не фиксирован в одном, поэтому они могут моделировать избыточную дисперсию.

Это также то, что вы видите в своем выводе. И это разница между обеими моделями / кодами.

Если ваш вопрос: в чем разница между логистической регрессией и регрессией дробного ответа?

Как вы правильно определили, модель является логистической, если ваши зависимые переменные равны 0 или 1. Папке и Вулдридж показали, что вы можете использовать GLM этой формы для фракций, а также для оценки параметров, но вам необходимо вычислить устойчивые стандартные ошибки. Это не требуется для логистической регрессии, и на самом деле, некоторые люди думают, что вы не должны вычислять надежные стандартные ошибки в моделях Probit / Logit. Хотя это другая дискуссия.

Теоретическая основа взята из известной статьи Гурье, Монфора и Трогнонав Econometrica в 1984 году. Они показывают, что (при некоторых условиях регулярности и т. д.) параметры максимального правдоподобия, полученные путем максимизации правдоподобия, принадлежащего линейному экспоненциальному семейству, являются согласованными оценками параметров, принадлежащих любому другому правдоподобию в линейном семействе экспоненциальных. Так что, в некотором смысле, мы используем логистическое распределение здесь, хотя оно не совсем правильное, но параметры все еще согласуются с параметрами, которые мы хотим получить. Итак, если ваш вопрос возник из наблюдения, что мы используем одну и ту же функцию правдоподобия для оценки как логистических, так и дробных моделей отклика, за исключением того, что мы обмениваемся природой зависимой переменной, то это интуиция.


Как мы можем измерить производительность? Можем ли мы использовать MSE как линейную регрессию?
новичок

1
Это совсем другой вопрос. Пожалуйста, разместите его как новый.
coffeinjunky
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.