Интерпретация графика невязок и подгоночных значений для проверки предположений линейной модели


34

Рассмотрим следующую фигуру из линейных моделей Faraway с R (2005, стр. 59).

введите описание изображения здесь

Первый график, по-видимому, указывает на то, что остатки и подогнанные значения некоррелированы, поскольку они должны быть в гомоскедастической линейной модели с нормально распределенными ошибками. Поэтому второй и третий графики, которые, кажется, указывают на зависимость между невязками и подобранными значениями, предлагают другую модель.

Но почему второй график предполагает, как отмечает Фарауэй, гетероскедастическую линейную модель, в то время как третий график предлагает нелинейную модель?

Второй график, по-видимому, указывает на то, что абсолютное значение остатков сильно положительно коррелирует с подобранными значениями, тогда как на третьем графике такой тенденции не наблюдается. Так что если бы это было так, теоретически, в гетероскедастической линейной модели с нормально распределенными ошибками

Cor(e,y^)=[1111]

(где выражение слева представляет собой матрицу дисперсии-ковариации между невязками и подобранными значениями), это объясняет, почему второй и третий графики согласуются с интерпретациями Faraway.

Но так ли это? Если нет, то как еще могут быть оправданы интерпретации Faraway второго и третьего сюжетов? Кроме того, почему третий график обязательно указывает на нелинейность? Возможно ли, что она линейна, но ошибки либо не распределены нормально, либо распределены нормально, но не центрированы вокруг нуля?


3
Ни на одном из трех графиков не показана корреляция (по крайней мере, не линейная корреляция, которая является значимым значением «корреляции» в том смысле, в котором она используется в « невязках, а соответствующие значения не коррелированы »).
Glen_b

1
@Glen_b: Спасибо. Я исправил абзац, на который вы ссылались, заменив «зависимость» на «корреляция».
Эван Аад

Ответы:


46

Ниже приведены те остаточные графики с приблизительным средним и разбросом точек (пределов, включающих большинство значений) при каждом значении подогнанного (и, следовательно, ), отмеченного в грубом приближении с указанием условного среднего (красного) и условного среднего (примерно!) вдвое больше условного стандартного отклонения (фиолетовый):x±

Диагностические графики с приблизительным средним и разбросом при каждом значении

  • На втором графике показано, что средний остаток не изменяется с установленными значениями (и поэтому не изменяется с ), но разброс остатков (и, следовательно, значений относительно подобранной линии) увеличивается по мере того, как измененные значения (или ). То есть спред не постоянен. Гетероскедастичности.xyx

  • третий график показывает, что остатки в основном отрицательные, когда установленное значение мало, положительные, когда установленное значение находится посередине, и отрицательные, когда установленное значение велико. То есть разброс приблизительно постоянен, а условное среднее - нет - подгоночная линия не описывает, как ведет себя при изменении , поскольку отношение искривлено.yx

Возможно ли, что она линейна, но ошибки либо не распределены нормально, либо распределены нормально, но не центрированы вокруг нуля?

Не совсем *, в этих ситуациях графики выглядят иначе, чем третьи.

(i) Если бы ошибки были нормальными, но не по центру в нуле, а , скажем, в , то при пересечении будет определена средняя ошибка, и поэтому предполагаемый перехват будет оценкой (которая будет его ожидаемое значение, но оно оценивается с ошибкой). Следовательно, ваши остатки все равно будут иметь условный средний ноль, и поэтому график будет выглядеть как первый график выше.θβ0+θ

(ii) Если ошибки обычно не распределяются, образец точек может быть плотнее где-нибудь, кроме центральной линии (если данные были искажены), скажем, но локальный средний остаток будет по-прежнему около 0.

ненормальные ошибки

Здесь фиолетовые линии все еще представляют (очень) примерно 95% интервал, но он больше не симметричен. (Я закрываю пару вопросов, чтобы не затенять основную мысль здесь.)

* Это не обязательно невозможно - если у вас есть термин «ошибка», который на самом деле не ведет себя как ошибки - скажем, где и связаны с ними правильным образом - вы можете создавать шаблоны, подобные этим. Тем не менее, мы делаем предположения о члене ошибки, например, что он не связан с , например, и имеет нулевое среднее значение; нам бы пришлось нарушить хотя бы некоторые из этих предположений, чтобы сделать это. (Во многих случаях у вас может быть причина сделать вывод, что такие эффекты должны отсутствовать или, по крайней мере, относительно незначительны.)xyx


1
Дай мне посмотреть, правильно ли я понимаю. Означает ли гомоскедастичность, что разброс ошибок не зависит от x (и, следовательно, также не зависит от , так как является функцией от )? y^y^x
Эван Аад

2
Гомоскедастичность буквально означает «одинаковое распространение». То есть (популяционная) дисперсия ответа в каждой точке данных должна быть одинаковой. Один из наблюдаемых способов, которым это может отличаться от того, чтобы быть равным, - если это изменяется со средним (оцененный как приспособленный); Другой способ - если он изменяется с какой-либо независимой переменной (хотя для простой регрессии в большинстве случаев, по-видимому, доступна только одна независимая переменная, так что в принципе эти две переменные будут одинаковыми). Вы можете представить себе ситуацию, когда среднее значение изменяется с а спред изменяется с , что само по себе не связано с . х 2 х 1x1x2x1
Glen_b

1
(ctd) ... это все равно будет нарушением всех наблюдений, имеющих одинаковый разброс. [Я был немного свободен с различием между и подобранными значениями; Я постараюсь это почистить.]x
Glen_b

Спасибо. Ситуация намного яснее сейчас. Я думал, что гомоскедастичность означает, что матрица дисперсии-ковариации ошибки имеет вид , и, в частности, если вектор ошибки распределен как для некоторой произвольной симметричной матрицы модель была гетероскедастичной. Теперь я понимаю, что это не так. Но теперь, когда я понимаю значение гомоскедастичности, у меня возник другой вопрос. Можно ли сказать по первому графику Фаравея, что матрица дисперсии-ковариации ошибки имеет вид ? Может ли это быть какой-то произвольный ? N ( 0 , V ) V σ 2 I Vσ2IN(0,V)Vσ2IV
Эван Аад

1
(ctd) ... как вы можете видеть из моего первого комментария под моим ответом, в частности, в результате предложения, начинающегося "Вы можете представить ..." - но это в значительной степени исключает гетероскедастичность, которая связана с Значение.
Glen_b

2

Вы написали

Второй график, по-видимому, указывает на то, что абсолютное значение остатков сильно положительно коррелирует с подобранными значениями,

Это не "кажется", это так. И это то, что означает гетероскедастик.

Затем вы даете матрицу всех 1, что не имеет значения; корреляция может существовать и быть меньше 1.

Потом пишешь

Кроме того, почему третий график обязательно указывает на нелинейность? Возможно ли, что она линейна, но ошибки либо не распределены нормально, либо распределены нормально, но не центрированы вокруг нуля?

Они центрируются около 0. Половина ниже 0, половина выше. Труднее сказать, нормально ли они распределены на этом графике, но обычно рекомендуется другой график - квантильный нормальный график остатков, который показывает, являются ли они нормальными или нет.


Спасибо. Возможно ли, что распределение ошибок первого графика равно для некоторой симметричной матрицы , которая не имеет форму ? Если так, можем ли мы все еще использовать график QQ, чтобы выяснить, нормально ли распределяются ошибки? V σ 2 IN(0,V)Vσ2I
Эван Аад

1
Квантильный нормальный график только смотрит на нормальность. Доказательства гомоскедастичности в первом сюжете наглядны
Питер Флом - Восстановить Монику

@PeterFlom: Извините за некропост: я немного запутался в количественном определении, когда мы рассматриваем ошибку в каждой точке (xi, yi): учитываем ли мы несколько ответов (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) для ввода xi; i = 1,2, ..., n (количество точек данных), а затем найти среднее значение и дисперсию для значений yi_j? Меня просто смущает, почему в линейной регрессии y = ax + b, x, y, a (или полилинейной y + a1x1 + a2x2 + ... Беспокоит затем ai, xi) случайные переменные, а не фиксированные значения .value. Кроме того, делаем ли мы этот анализ для каждой пары предикторов и каждой пары (y, x_i) с y независимым значением?
Гэри

Я не понимаю, о чем вы смущены. Существует прогнозируемое значение y и фактическое значение y для каждого наблюдения. Остаток - это разница между ними.
Питер Флом - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.