Каковы последствия наличия непостоянной дисперсии в терминах ошибки в линейной регрессии?

Одно из предположений о линейной регрессии состоит в том, что должна быть постоянная дисперсия в терминах ошибок и что доверительные интервалы и проверки гипотез, связанные с моделью, основаны на этом предположении. Что именно происходит, когда члены ошибки не имеют постоянной дисперсии?

— Kira
источник

Последствия гетероскедастичности:

Обычный метод наименьших квадратов (МНК) оценки до сих пор соответствует , но это уже не эффективны . $\hat{\mathbf{b}} = \left(X'X \right)X'\mathbf{y}$
Оценка , где $\hat{\mathrm{Var}}\left(\mathbf{b} \right) = \left( X'X\right)^{-1} \hat{\sigma}^2$ являетсянесостоятельной оценкой больше для ковариационной матрицы вашей оценивани . Это может быть как предвзятым, так и противоречивым. И на практике это может существенно недооценивать дисперсию. $\hat{\sigma}^2 = \frac{1}{n-k} \mathbf{e'}{\mathbf{e}}$ $\hat{\mathbf{b}}$

Пункт (1) не может быть серьезной проблемой; люди все равно часто используют обычный оценщик OLS. Но пункт (2) должен быть решен. Что делать?

Вам нужны стандартные ошибки, совместимые с гетероскедастичностью . Стандартный подход заключается в том, чтобы опираться на допущения для большой выборки, асимптотические результаты и оценить дисперсию используя: $\mathbf{b}$

гдеоценивается как

\hat{В a р} (б) знак равно \frac{1}{N} {(\frac{{Икс}^{'} Икс}{N})}^{- 1} S {(\frac{{Икс}^{'} Икс}{N})}^{- 1}

$\hat{\mathrm{Var}}\left(\mathbf{b}\right)=\frac{1}{n}\left( \frac{X'X}{n} \right)^{-1} S \left( \frac{X'X}{n} \right)^{-1}$

S

$S$

S = \frac{1}{n - k} \sum_{i} (x_{i} e_{i}) {(x_{i} e_{i})}^{'}

$S = \frac{1}{n-k}\sum_i \left(\mathbf{x}_i e_i\right) \left(\mathbf{x}_i e_i \right)'$

Это дает гетероскедастичность, соответствующую стандартным ошибкам. Их также называют стандартными ошибками Губера-Уайта, надежными стандартными ошибками, сэндвич-оценкой и т. Д. Любой базовый стандартный статистический пакет имеет опцию для устойчивых стандартных ошибок. Используй это!

Некоторые дополнительные комментарии (обновление)

Если гетероскедастичность достаточно велика, регулярная оценка МНК может иметь большие практические проблемы. Несмотря на постоянную оценку, у вас могут быть небольшие проблемы с выборкой, когда вся ваша оценка определяется несколькими наблюдениями с высокой дисперсией. (Это то, на что @ seanv507 ссылается в комментариях). Оценщик OLS неэффективен, поскольку он придает большее значение наблюдениям с высокой дисперсией, чем оптимальным. Оценка может быть очень шумной.

Проблема с попыткой исправить неэффективность заключается в том, что вы, вероятно, также не знаете ковариационную матрицу для термов ошибок, поэтому использование чего-то вроде GLS может ухудшить ситуацию, если ваша оценка ковариационной матрицы термов ошибок будет мусором.

Кроме того, стандартные ошибки Губера-Уайта, которые я привел выше, могут иметь большие проблемы в небольших выборках. Существует много литературы на эту тему. Например. см. Imbens and Kolesar (2016), «Надежные стандартные ошибки в малых выборках: некоторые практические советы».

Направление для дальнейшего изучения:

Если это самообучение, то следующей практической вещью, которую следует рассмотреть, являются кластерные стандартные ошибки. Они корректны для произвольной корреляции внутри кластеров.

— Мэтью Ганн
источник

Мэтью - Я думаю, что более практические проблемы прояснят пункт (1). Например, не будет ли оценщик смещен в сторону регионов с более высокой дисперсией? - что было бы более серьезной проблемой, если бы эти регионы были далеки от среднего значения, что привело к большому левереджу

— seanv507

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbf{b}$

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbb b$

@ seanv507 не стесняйтесь добавлять свой ответ!

— Мэтью Ганн

Вместо использования устойчивых к гетероскедастичности стандартных ошибок (которые Эд Лимер в своей статье 2010 года «Тантал на пути к асимптопии» называет « стиркой белым» ), можно также попытаться исправить точечные оценки (вместе с оценкой дисперсии) для гетероскедастичности с помощью WLS. Это может стоить упомянуть в вашем ответе.

— Ричард Харди

Ну, краткий ответ в основном ваша модель неверна, т.е.

Для того чтобы метод наименьших квадратов , чтобы быть B Est L Inear U nbiased E stimator постоянная дисперсия членов ошибки принимается.
$\beta$

Таким образом, в случае гетероскедастичности возникают проблемы с оценкой дисперсионно-ковариационной матрицы, которые приводят к неправильным стандартным ошибкам коэффициентов, что, в свою очередь, приводит к неправильной t-статистике и p-значениям. Короче говоря, если ваши термины ошибок не имеют постоянной дисперсии, то обычные наименьшие квадраты не самый эффективный способ оценки. Посмотрите на этот связанный вопрос.

— davidski
источник

«Гетероскедастичность» затрудняет оценку истинного стандартного отклонения ошибок прогноза. Это может привести к слишком широким или слишком узким доверительным интервалам (в частности, они будут слишком узкими для прогнозов вне выборки, если дисперсия ошибок со временем увеличивается).

Кроме того, регрессионная модель может быть слишком сосредоточена на подмножестве данных.

Хорошая ссылка: Тестирование предположений о линейной регрессии

— OW_
источник