Что означает наличие «постоянной дисперсии» в модели линейной регрессии?

Что означает наличие «постоянной дисперсии» в термине ошибки? На мой взгляд, у нас есть данные с одной зависимой переменной и одной независимой переменной. Постоянная дисперсия является одним из предположений о линейной регрессии. Мне интересно, что означает гомоскедастичность. Поскольку даже если бы у меня было 500 строк, у меня было бы одно значение дисперсии, которое, очевидно, является постоянным. С какой переменной следует сравнить дисперсию?

regression heteroscedasticity

— Mukul
источник

Ответы:

Это означает, что при построении отдельной ошибки по отношению к прогнозируемому значению дисперсия прогнозируемого значения ошибки должна быть постоянной. Смотрите красные стрелки на картинке ниже, длина красных линий (прокси ее дисперсии) одинакова.

введите описание изображения здесь

— Penguin_Knight
источник

Хорошо понял.!! Но поскольку это предположение, нам не нужно проверять предположение перед запуском модели. И зачем нам это предположение

— Мукуль

Некоторые предположения могут быть проверены только после запуска модели. Вычисление модели - это просто математика, а не интерпретация модели.

— Джон

Диапазон не равен дисперсии Penguin Knight, поэтому вы можете обновить свою формулировку здесь.

— Джон

Если ваше предположение отклонения неверно, то это обычно будет означать, что стандартные ошибки неверны, и любая проверка гипотез может сделать неверные выводы. (Другой Джон)

— Джон

Я немного различаюсь Я бы не сказал, что гетероскедастичность обязательно означает, что стандартные ошибки в ваших бета-версиях неверны, а скорее, что оценщик OLS больше не является наиболее эффективным объективным оценщиком. То есть вы могли бы получить больше мощности / точности, если бы у вас была постоянная дисперсия (возможно, из-за преобразования Y), или если вы точно учли непостоянство (возможно, через обобщенную оценку наименьших квадратов).

— gung - Восстановить Монику

Y знак равно β_{0} + β_{1} Икс + ε где ε ~ N (0, σ_{ε}^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

σ_{ε}^{2}

$\sigma^2_\varepsilon$

$\sigma^2_\varepsilon$ $X$ $Y$ $\varepsilon$ $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ $X$ $\sigma^2_\varepsilon$

Y знак равно β_{0} + β_{1} Икс + ε где ε ~ N (0, е (Икс)) где е (Икс) знак равно ехр (γ_{0} + γ_{1} Икс) а также γ_{1} \neq 0

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0$

X

$X$

f (X)

$f(X)$

X

$X$

$X$ , Тем не менее, я склонен думать, что лучше всего смотреть на графики. @Penquin_Knight проделал хорошую работу, показав, как выглядит постоянная дисперсия, построив графики остатков модели, в которой гомоскедастичность достигается в сравнении с подобранными значениями. Гетероскедастичность также может быть обнаружена на графике необработанных данных или на графике масштаба (также называемом уровнем распространения). R удобно готовит последний для вас с вызовом plot.lm(model, which=2); это квадратный корень из абсолютных значений остатков по отношению к установленным значениям, с наложенной на них кривой низкого значения . Вы хотите, чтобы нижняя посадка была плоской, а не наклонной.

Рассмотрим графики, приведенные ниже, в которых сравнивается, как гомосцедастические и гетероскедастические данные могут выглядеть на этих трех различных типах фигур. Обратите внимание на форму воронки для двух верхних гетероскедастических графиков и восходящую низкую линию на последнем.

введите описание изображения здесь

Для полноты вот код, который я использовал для генерации этих данных:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

— Gung - Восстановить Монику
источник

спасибо, это очень полезно. Можете ли вы также объяснить, зачем нам это предположение на непрофессиональном языке

— Mukul

Пожалуйста, @Mukul. Предположение о гомоскедастичности (постоянная дисперсия) требуется для того, чтобы сделать оценщик OLS (т. Е. Программное обеспечение процедуры по умолчанию, используемое для оценки бета) процедурой оценки, которая будет производить выборочные распределения бета, которые имеют самые узкие стандартные ошибки из всех процедур оценки, которые дают Распределения выборки, которые сосредоточены на истинном значении. То есть, для оценки OLS необходимо использовать несмещенную оценку с минимальной дисперсией .

— gung - Восстановить Монику

p

$p$

(p (1 - p)) / n)

$(p(1-p))/n)$

@gung в своем комментарии вы выделите курсивом все слова в фразе минимальной дисперсии объективной оценки. Я понимаю, что с гетероскедастичностью оценка станет менее эффективной (больше дисперсии), но будет ли она также смещена?

— user1205901 - Восстановить Монику

@ user1205901, он остается беспристрастным.

— gung - Восстановить Монику