Предполагает ли предположение о нормальных ошибках, что Y также является нормальным?

12

Если я не ошибаюсь, предполагается, что в линейной модели распределение отклика имеет систематический компонент и случайный компонент. Термин ошибки фиксирует случайную составляющую. Следовательно, если мы предположим, что термин ошибки нормально распределен, не означает ли это, что ответ также нормально распределен? Я думаю, что это так, но тогда утверждения, подобные приведенному ниже, кажутся довольно запутанными:

И вы можете ясно видеть, что единственное предположение о «нормальности» в этой модели состоит в том, что остатки (или «ошибки» ) должны быть нормально распределены. Не существует предположения о распределении предиктора или переменной ответа . $\epsilon_i$ $x_i$ $y_i$

Источник: Предикторы, ответы и остатки: Что действительно должно быть нормально распределено?

regression assumptions

— Эрнест А
источник

7

Если нестохастичны, нормальность подразумевает нормальность зависимой переменной. Для стохастических независимых переменных это не будет иметь место в общем случае, оно зависит от распределения независимых переменных.

x

$x$

ϵ

$\epsilon$

19

Стандартная модель OLS - с для фиксированного . $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

Это действительно означает, что , хотя это является следствием нашего предположения о распределении , а не на самом деле предположение. Кроме того, имейте в виду , что я говорю об условном распределении , а не маргинальное распределение . Я сосредотачиваюсь на условном распределении, потому что я думаю, что это то, о чем вы действительно спрашиваете. $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

Я думаю, что смущает то, что это не означает, что гистограмма будет выглядеть нормально. Мы говорим, что весь вектор представляет собой одно изображение из многомерного нормального распределения, где каждый элемент имеет потенциально различное среднее значение . Это не то же самое, что обычный образец iid. Ошибки самом деле являются образцом iid, поэтому их гистограмма будет выглядеть нормально (и именно поэтому мы делаем график QQ остатков, а не отклика). $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

Вот пример: предположим, что мы измеряем высоту для выборки 6-х и 12-х классов. Наша модель - с . Если мы посмотрим на гистограмму мы, вероятно, увидим бимодальное распределение, с одним пиком для 6-х классов и одним пиком для 12-х классов, но это не является нарушением наших предположений. $H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— JLD
источник

Может кто-нибудь уточнить, пожалуйста, обозначение ?

σ^{2} I_{n}

$\sigma^2 I_n$

— snoram

Это означает, что единичная матрица умножена на скаляр .

n \times n

$n \times n$

σ^{2}

$\sigma^2$

— JDD

В единичную матрицу раз некоторые различия.

n \times n

$n\times n$

— Sycorax говорит восстановить Monica

11

Следовательно, если мы предположим, что термин ошибки нормально распределен, не означает ли это, что ответ также нормально распределен?

Даже отдаленно. Насколько я помню, это то, что невязки обычно зависят от детерминированной части модели . Вот демонстрация того, как это выглядит на практике.

Я начинаю с случайного генерирования некоторых данных. Затем я определяю результат, который является линейной функцией предикторов, и оцениваю модель.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Давайте посмотрим, как выглядят эти остатки. Я подозреваю, что они должны быть нормально распределены, так как в результате yбыл добавлен нормальный шум. И это действительно так.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Однако, проверяя распределение y, мы видим, что это определенно не нормально! Я наложил функцию плотности с тем же средним и дисперсией y, но это, очевидно, ужасное соответствие!

Причина, по которой это произошло в этом случае, заключается в том, что входные данные даже не являются нормальными. Ничто в этой регрессионной модели не требует нормальности, кроме остатков - ни в независимой переменной, ни в зависимой переменной.

— Sycorax говорит восстановить Монику
источник

8

Нет, это не так. Например, предположим, у нас есть модель, предсказывающая вес олимпийских спортсменов. Хотя вес вполне может быть нормально распределен между спортсменами в каждом виде спорта, он не будет среди всех спортсменов - он может даже не быть унимодальным.

— Питер Флом - Восстановить Монику
источник