Меры остаточной гетероскедастичности


16

Эта ссылка на Википедию перечисляет ряд методов для определения гетероскедастичности остатков МНК. Я хотел бы узнать, какой практический метод более эффективен в обнаружении областей, затронутых гетероскедастичностью.

Например, здесь видно, что центральная область на графике OLS «Остаточные и адаптированные» имеет более высокую дисперсию, чем стороны графика (я не совсем уверена в фактах, но давайте предположим, что это так и есть ради вопроса). Для подтверждения, глядя на метки ошибок на графике QQ, мы видим, что они совпадают с метками ошибок в центре графика остатков.

Но как мы можем количественно определить остаточную область, которая имеет значительно более высокую дисперсию?

гетероскедастичности


2
Я не уверен, что вы правы, что в середине более высокая дисперсия. Тот факт, что выбросы находятся в центральном регионе, кажется мне вероятным результатом того, что именно там находится большая часть данных. Конечно, это не делает ваш вопрос недействительным.
Питер Эллис

1
Qqplot предназначен для прямой идентификации ненормальности распределения, а не неоднородных дисперсий.
Майкл Р. Черник

@PeterEllis Да, я указал в вопросе, что я не уверен, что дисперсия отличается, но у меня была удобная диагностическая картина, и в примере может быть некоторая гетероскедастичность.
Роберт Кубрик

@MichaelChernick Я упомянул только qqplot, чтобы проиллюстрировать, как наибольшие ошибки, по-видимому, концентрируются в середине графика остатков, что потенциально указывает на более высокую дисперсию в этой области.
Роберт Кубрик

Ответы:


15

Эта проблема имеет исследовательский смысл. Джон Тьюки описывает многие процедуры изучения гетероскедастичности в своем классическом Исследовательском анализе данных (Addison-Wesley 1977). Пожалуй, наиболее полезным является вариант его « блуждающего схематического сюжета ». Это нарезает одну переменную (например, прогнозируемое значение) на ячейки и использует m-буквенные сводки (обобщения коробчатых диаграмм), чтобы показать местоположение, разброс и форму другой переменной для каждой ячейки. М-буквенная статистика дополнительно сглаживается, чтобы подчеркнуть общие закономерности, а не случайные отклонения.

Быстрая версия может быть приготовлена ​​путем использования boxplotпроцедуры в R. Проиллюстрируем с помощью смоделированных сильно гетероскедастических данных:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Данные

Получим предсказанные значения и остатки из регрессии OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Здесь, затем, блуждающий схематический график, использующий ячейки с равным количеством для прогнозируемых значений. Я использую lowessдля быстрой и грязной гладкой.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Блуждающий схематический сюжет

Синяя кривая сглаживает медианы. Его горизонтальная тенденция указывает на то, что регрессия, как правило, хорошо подходит. Другие кривые сглаживают концы прямоугольника (квартили) и заборы (которые обычно являются экстремальными значениями). Их сильная конвергенция и последующее разделение свидетельствуют о гетероскедастичности - и помогают нам охарактеризовать и оценить ее.

(Обратите внимание на нелинейный масштаб на горизонтальной оси, отражающий распределение прогнозируемых значений. При немного большей работе эта ось может быть линеаризована, что иногда полезно.)


6
Хороший пример, я бы подумал, что некоторая реализация запущенных квантилей была доступна в R (чтобы полностью избежать проблемы с мусорными ведрами). Вид напоминает мне о сумках . Также посмотрите расширение Роба Хиндмана в его пакете Rainbow.
Энди W

9

Как правило, гетероскедастичность моделируется с использованием подхода Брейша-Пагана. Остатки от вашей линейной регрессии затем возводятся в квадрат и регрессируют на переменные в вашей исходной линейной модели. Последняя регрессия называется вспомогательной регрессией .

Nрa2Nрa2р2

Для ваших целей вы могли бы сосредоточиться на отдельных коэффициентах из этой модели, чтобы увидеть, какие переменные наиболее предсказуемы для результатов с высокой или низкой дисперсией.


1
+1 Но обратите внимание, что такие тесты ограничены в тех формах гетероскедастичности, которые они могут обнаружить. Примеры, подобные показанному в моем ответе, могут проскальзывать, даже несмотря на то, что гетероскедастичность чрезвычайно сильна.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.