Почему линейная регрессия имеет допущение об остаточной, а обобщенная линейная модель имеет допущения об отклике?

14

Почему линейная регрессия и обобщенная модель имеют противоречивые предположения?

В линейной регрессии мы предполагаем, что остаток происходит от гауссовой
В другой регрессии (логистическая регрессия, регрессия яда) мы предполагаем, что ответ приходит из некоторого распределения (биномиальное, отравление и т. Д.).

Почему иногда предполагают остаточное, а другое время предполагают на ответ? Это потому, что мы хотим получить разные свойства?

РЕДАКТИРОВАТЬ: я думаю, что mark999 показывает, что две формы равны. Тем не менее, у меня есть еще одно сомнение по поводу iid:

Мой другой вопрос: Есть ли предположение о логистической регрессии? показывает, что обобщенная линейная модель не имеет предположения iid (независимо, но не идентична)

Правда ли, что для линейной регрессии, если мы представим предположение об остатке , у нас будет iid, но если мы представим предположение об ответе , у нас будут независимые, но не идентичные выборки (разные гауссианы с разными )? $\mu$

— Хайтау Ду
источник

См. Также stats.stackexchange.com/questions/295340/…

— kjetil b halvorsen

12

Простая линейная регрессия с гауссовыми ошибками - очень хороший атрибут, который не обобщается на обобщенные линейные модели.

В обобщенных линейных моделях отклик следует некоторому заданному распределению с учетом среднего . Линейная регрессия следует этой схеме; если мы имеем

$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

$\epsilon_i \sim N(0, \sigma)$

тогда мы также имеем

$y_i \sim N(\beta_0 + \beta_1 x_i, \sigma)$

$\epsilon_i$ $x$ . Но, надеюсь, в оценках достаточно точности, что это игнорируется!).

$y_i$ «s, мы не можем сказать , если они являются нормальными , если все они имеют разные средства. Например, рассмотрим следующую модель:

$y_i = 0 + 2 \times x_i + \epsilon_i$

$\epsilon_i \sim N(0, 0.2)$ $x_i \sim \text{Bernoulli}(p = 0.5)$

$y_i$ будет сильно бимодальным, но не нарушит предположения о линейной регрессии! С другой стороны, остатки будут следовать примерно нормальному распределению.

Вот некоторый Rкод для иллюстрации.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

— Клифф AB
источник

пример

y_{i} = 1 + 2 \times x_{i} + ϵ_{i}

$y_i = 1 + 2 \times x_i + \epsilon_i$ , действительно открыл мой разум. Никогда не думайте таким образом, где все еще используете идентификационную ссылку, а остаточное предположение не нарушается!

— Haitao Du

3

@ hxd1011: да, это разница между предельным распределением (явно ненормальным) и условным распределением с учетом x (мы знаем, что это нормально, так как мы имитировали его!). Не думать о разнице между условным и маргинальным распределением - чрезвычайно распространенная ошибка.

— Клифф AB

14

Предположения не являются противоречивыми. Если для $i = 1, \ldots, n$ , вы предполагаете

Y_{я} знак равно β_{0} + β_{1} {Икс}_{я 1} + ... + β_{К} {Икс}_{я К} + ε_{я},

$Y_i = \beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik} + \epsilon_i,$ с ошибками

ϵ_{i}

$\epsilon_i$ нормально распределяется со средним 0 и дисперсией

σ^{2}

$\sigma^2$ это то же самое, что предположить, что

X_{i 1}, \dots, X_{i k}

$X_{i1}, \ldots, X_{ik}$ , ответ

Y_{i}

$Y_i$ обычно распределяется со средним

β_{0} + β_{1} X_{i 1} + \dots + β_{k} X_{i k}

$\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$ и дисперсия

σ^{2}

$\sigma^2$ ,

Это потому что $X_{i1}, \ldots, X_{ik}$ мы лечим $\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$ как постоянный.

Обычная модель множественной линейной регрессии с нормальными ошибками представляет собой обобщенную линейную модель с нормальным откликом и идентичной связью.

— mark999
источник