Каковы опасности нарушения предположения о гомоскедастичности для линейной регрессии?


28

В качестве примера рассмотрим ChickWeightнабор данных в R. Разница, очевидно, со временем увеличивается, поэтому, если я использую простую линейную регрессию, например:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Мои вопросы:

  1. Какие аспекты модели будут сомнительными?
  2. Проблемы ограничены экстраполяцией вне Timeдиапазона?
  3. Насколько толерантна линейная регрессия к нарушению этого предположения (т. Е. Насколько гетероскедастичным должно быть, чтобы вызывать проблемы)?

1
Помимо вещей, упомянутых в ответах, ваши интервалы прогнозирования также не будут иметь правильного покрытия.
Glen_b

Ответы:


22

Линейная модель (или «обычные наименьшие квадраты») в этом случае все еще обладает свойством беспристрастности.

Перед лицом гетероскедастичности в терминах ошибок у вас все еще есть несмещенные оценки параметров, но вы теряете ковариационную матрицу: ваш вывод (т. Е. Тесты параметров) может быть отключен. Распространенным решением является использование надежного метода для вычисления ковариационной матрицы или стандартных ошибок. Какой из них вы используете, зависит от домена, но метод Уайта - это начало.

И для полноты, последовательная корреляция слагаемых ошибок хуже, поскольку это приведет к смещенным оценкам параметров.


Надежная оценка стандартных ошибок (например, метод Уайта) помогает с тестами / доверительными интервалами параметров, но не помогает с интервалами прогнозирования
kjetil b halvorsen

Ковариация вектора параметров используется при расчете прогнозов, поэтому ваши интервалы прогнозирования также будут смещены в целом.
Мустафа С Эйса

Правильный. Беспристрастно держит, вывод может быть отключен. Два других пункта верны, хотя.
Дирк Эддельбюттель

1
Спасибо за то, что поймал это, и был откровенен (а не молча, или "проезжал мимо", downvote). Я был просто немного неаккуратен в использовании терминологии. Теперь лучше.
Дирк Эддельбюттель

23

Гомоскедастичность является одним из предположений Гаусса-Маркова, которые требуются для того, чтобы МНК была лучшей линейной несмещенной оценкой (СИНИЙ).

Теорема Гаусса-Маркова говорит нам, что оценка наименьших квадратов для коэффициентовβ

Кратко суммируя информацию с сайтов выше, гетероскедастичность не вносит систематической ошибки в оценки ваших коэффициентов. Однако, учитывая гетероскедастичность, вы не сможете правильно оценить матрицу дисперсии и ковариации. Следовательно, стандартные ошибки коэффициентов неверны. Это означает, что невозможно вычислить любую t-статистику и p-значения, и, следовательно, проверка гипотез невозможна. В целом, при гетероскедастичности OLS теряет свою эффективность и больше не СИНИЙ.

Тем не менее, гетероскедастичность не конец света. К счастью, исправить гетероскедастичность несложно. Оценщик сэндвича позволяет оценить согласованные стандартные ошибки для коэффициентов. Тем не менее, вычисление стандартных ошибок с помощью сэндвич-оценки обходится дорого. Оценка не очень эффективна, и стандартные ошибки могут быть очень большими. Один из способов вернуть часть эффективности - это кластеризовать стандартные ошибки, если это возможно.

Вы можете найти более подробную информацию по этому вопросу на сайтах, которые я упомянул выше.


12

Отсутствие гомоскедастичности может дать ненадежные стандартные оценки погрешности параметров. Оценки параметров объективны. Но оценки не могут быть эффективными (не синий). Вы можете найти больше по следующей ссылке


12

log(Y)Yβнеправильно и приводят к неконкурентной сумме абсолютных ошибок. Иногда отсутствие постоянства дисперсии сигнализирует о более фундаментальной проблеме моделирования.

Ylog(Y)


1

В других ответах есть хорошая информация, особенно на ваш первый вопрос. Я думал, что добавлю некоторую дополнительную информацию относительно ваших последних двух вопросов.

  1. Проблемы, связанные с гетероскедастичностью, не ограничиваются экстраполяцией. Поскольку в первую очередь они содержат неверные доверительные интервалы, p-значения и пределы прогнозирования, они применяются ко всему диапазону ваших данных.
  2. 4×
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.