Как интерпретировать параметры в GLM с семейством = гамма

21

У меня есть вопрос, касающийся интерпретации параметров для GLM с гамма-распределенной зависимой переменной. Вот что R возвращает для моего GLM с лог-ссылкой:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Как мне интерпретировать параметры? Если я вычислю exp(coef())мою модель, я получу ~ 500 за перехват. Теперь я считаю, что это не означает ожидаемый доход, если все остальные переменные остаются постоянными, не так ли? Поскольку среднее значение или mean(age)составляет около 2000. Более того, я понятия не имею, как интерпретировать направление и значение коэффициентов ковариат.

r generalized-linear-model interpretation gamma-distribution

— Gung - Восстановить Монику
источник

6

500 было бы близко к ожидаемому доходу, если бы все остальные переменные были точно равны нулю (а не просто постоянны) - как в регрессии, на самом деле.

— Glen_b

@Glen_b с какой стати можно ожидать доход, когда экспоненциальный коэффициент является мультипликативным эффектом на доход при изменении пояснительной переменной?

— татами

Обсуждаемый случай - это условное среднее, когда все объясняющие переменные равны 0.

— Glen_b

25

Лог-связанная гамма-спецификация GLM идентична экспоненциальной регрессии:

E [y | x, z] = \exp (α + β \cdot x + γ \cdot z) = \hat{y}

$E[y \vert x,z] = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)=\hat y$

Это означает, что . Это не очень значимое значение (если только вы не центрировали свои переменные так, чтобы они заранее были равны нулю). $E[y \vert x=0,z=0]=\exp(\alpha)$

Существует как минимум три способа интерпретации вашей модели. Одним из них является получение производной от ожидаемого значения заданного по : $y$ $x$ $x$

\frac{\partial E [y | x, z]}{\partial x} = \exp (α + β \cdot x + γ \cdot z) \cdot β = \hat{y} \cdot β

$\frac{\partial E[y \vert x,z]}{\partial x} = \exp \left( \alpha + \beta \cdot x +\gamma \cdot z\right)\cdot \beta=\hat y \cdot \beta$

Эта величина зависит от и , поэтому вы можете оценить ее по среднему / медианному / модальному или репрезентативным значениям и или взять среднее значение по вашей выборке. Оба они называются предельными эффектами. Эти производные имеют смысл только для непрерывных переменных (например, высоты) и сообщают вам аддитивный эффект небольшого изменения по . $x$ $z$ $x$ $z$ $\hat y \cdot \beta$ $x$ $y$

Если бы был двоичным (как пол), вы могли бы вместо этого вычислить конечные различия: $x$

E [y | z, x = 1] - E [y | z, x = 0] = \exp (α + β + γ \cdot z) - \exp (α + γ \cdot z) = \exp (α + γ \cdot z) \cdot (\exp (β) - 1)

$E[y \vert z,x=1]-E[y \vert z,x=0]=\exp \left( \alpha + \beta +\gamma \cdot z\right) - \exp \left( \alpha +\gamma \cdot z\right)= \exp \left( \alpha +\gamma \cdot z\right) \cdot\left( \exp(\beta)-1 \right)$

Это имеет больше смысла, так как трудно представить бесконечно малые изменения в сексе. Конечно, вы также можете сделать это с помощью непрерывной переменной. Это аддитивные эффекты от изменения одной единицы по , а не крошечного. $x$

Третий метод - возвести в степень коэффициенты. Обратите внимание, что:

\begin{matrix} Е [Y | Z, Икс + 1] & знак равно ехр (α + β \cdot (Икс + 1) + γ \cdot Z) \\ знак равно ехр (α + β \cdot Икс + β + γ \cdot Z) \\ знак равно ехр (α + β \cdot Икс + γ \cdot Z) \cdot ехр (β) \\ знак равно Е [Y | Z, Икс] \cdot ехр (β) \end{matrix}

$\begin{array} _E[y \vert z,x+1] &= \exp \left( \alpha + \beta \cdot (x+1) +\gamma \cdot z \right) \\ &=\exp \left( \alpha + \beta \cdot x+\beta +\gamma \cdot z \right)\\ &=\exp \left( \alpha + \beta \cdot x +\gamma \cdot z \right)\cdot \exp(\beta) \\ &= E[y \vert z,x]\cdot \exp(\beta) \end{array}$

Это означает, что вы можете интерпретировать возведенные в степень коэффициенты мультипликативно, а не аддитивно. Они дают вам множитель на ожидаемое значение, когда изменяется на 1. $x$

— Димитрий Васильевич Мастеров
источник

1

Вы могли бы проиллюстрировать второе толкование?

— татами

@tatami Я исправил ошибку в двоичном случае. Теперь это имеет больше смысла?

— Дмитрий Васильевич Мастеров

2

Сначала я посмотрю на остатки, чтобы увидеть, насколько хорошо подходит модель. Если все в порядке, я бы попробовал использовать другие функции связи, если у меня не было оснований полагать, что это действительно происходит из гамма-дистрибутива. Если бы гамма все еще выглядела убедительно, я бы пришел к выводу, что статистически значимыми терминами являются перехват, рост, образование, пол и средняя школа (те, которые отмечены тремя звездами). Между собой нельзя сказать больше, если они не стандартизированы (имеют одинаковый диапазон).

Ответ на комментарий: теперь я понимаю ваш вопрос лучше. Вы абсолютно можете это сделать! Увеличение высоты на единицу приводит к относительному изменению дохода в выражении (0,0082530) -1 ~ = 0,0082530 (с использованием приближения exp x = 1 + x для малых x) . Очень легко интерпретировать, нет?

— Эмре
источник

1

Так что я не могу на самом деле интерпретировать параметры, например, доход увеличивается на xy, если рост увеличивается на единицу?

1

Теперь я считаю, что я должен интерпретировать это мультипликативно: exp (Intercept) * exp (height) будет доходом с ростом на 1 единицу. Спасибо, тем не менее! :)