Почему диагностика основана на остатках?


11

В простой линейной регрессии часто требуется проверить, выполнены ли определенные допущения, чтобы можно было сделать вывод (например, остатки обычно распределяются).

Целесообразно ли проверять допущения, проверяя, нормально ли распределены установленные значения?

Ответы:


19

Почему диагностика основана на остатках?

Потому что многие из предположений относятся к условному распределению , а не к его безусловному распределению. Это эквивалентно предположению об ошибках, которое мы оцениваем по остаткам.Y

В простой линейной регрессии часто требуется проверить, выполнены ли определенные допущения, чтобы можно было сделать вывод (например, остатки обычно распределяются).

Фактическое предположение о нормальности не об остатках, а об ошибке. Самое близкое к тем, что у вас есть, это остатки, поэтому мы их проверяем.

Целесообразно ли проверять допущения, проверяя, нормально ли распределены установленные значения?

Нет. Распределение установленных значений зависит от типа . Это совсем немного говорит о предположениях.x

Например, я только что выполнил регрессию на смоделированных данных, для которых все предположения были правильно указаны. Например, нормальность ошибок была удовлетворена. Вот что происходит, когда мы пытаемся проверить нормальность подобранных значений:

диагностика нормальности на оборудовании

Они явно ненормальные; на самом деле они выглядят бимодальными. Зачем? Ну, потому что распределение подгоночных значений зависит от структуры . Ошибки были нормальными, но подходящие значения могли быть почти чем угодно.x

Еще одна вещь, которую люди часто проверяют (на самом деле гораздо чаще), это нормальность s ... но безоговорочно по ; опять же, это зависит от структуры s, и поэтому мало что говорит о реальных предположениях. Опять же, я сгенерировал некоторые данные, в которых все предположения верны; вот что происходит, когда мы пытаемся проверить нормальность безусловных значений :х х уyxxy

диагностика нормальности по необработанным значениям y

Опять же, ненормальность, которую мы видим здесь (у - перекос), не связана с условной нормальностью .y

На самом деле, прямо сейчас у меня есть учебник, в котором обсуждается это различие (между условным распределением и безусловным распределением ), то есть в первой главе оно объясняет, почему просто посмотреть на распределение не право а затем в последующих главах неоднократно проверяет нормальность предположение, посмотрев на распределение значений без учета воздействия «s для оценки пригодности предположений (другое дело , как правило , делает это просто смотреть на гистограммы, чтобы сделать эту оценку, но это совсем другая проблема ).y - y - x -Yyyx


Каковы предположения, как мы их проверяем и когда нам нужно их сделать?

  • В -х можно рассматривать как фиксированные (наблюдаемые без ошибок). Обычно мы не пытаемся проверить это диагностически (но у нас должна быть хорошая идея, правда ли это).x

  • Соотношение между и в модели задано правильно (например, линейно). Если мы вычтем наиболее подходящую линейную модель, то не должно быть никакой закономерности в отношениях между средним значением невязок и .х хE(Y)xx

  • Постоянная дисперсия (т. Е. не зависит от . Распределение ошибок является постоянным; это можно проверить, посмотрев на разброс остатков по , или проверив некоторую функцию квадратов невязок по отношению к и проверки изменений среднего значения (например, такие функции, как логарифм или квадратный корень. R использует четвертый корень квадратов невязок).x x xVar(Y|x)xxx

  • Условная независимость / независимость от ошибок. Определенные формы зависимости могут быть проверены (например, последовательная корреляция). Если вы не можете предвидеть форму зависимости, это немного сложно проверить.

  • Нормальность условного распределения / нормальность ошибок. Можно проверить, например, выполнив график QQ остатков.Y

(На самом деле есть некоторые другие предположения, которые я не упомянул, такие как аддитивные ошибки, что ошибки имеют нулевое среднее значение и т. Д.)

Если вас интересует только оценка соответствия линии наименьших квадратов, а не, скажем, стандартных ошибок, вам не нужно делать большинство из этих предположений. Например, распределение ошибок влияет на логический вывод (тесты и интервалы), и это может повлиять на эффективность оценки, но линия LS по-прежнему лучше всего линейна, например, несмещенная; поэтому, если распределение не является настолько ненормальным, что все линейные оценки являются плохими, это не обязательно большая проблема, если предположения о члене ошибки не выполняются.


Я добавил несколько диаграмм в свой ответ.
Glen_b

2
Это отличный ответ. Если вы хотите больше, я расскажу здесь о схожей территории: что если остатки нормально распределены, а Y - нет?
gung - Восстановить Монику

@ Gung Я пинаю себя за то, что не связался с этим первым.
Glen_b

1
@ Глен: Очень хороший нрав. У меня долгое время была такая же путаница из-за не очень хорошей трактовки этой темы в учебниках и почти во многих ресурсах в Интернете. С другой стороны, безусловное распределение Y почти всегда исследуется, чтобы вывести модель для условного распределения, особенно в контексте временных рядов. Есть ли теоретическое обоснование этого? Я пытался задать его как вопрос, но думаю, что не смог сформулировать
Cagdas Ozgenc

@CagdasOzgenc Единственная причина, по которой я могу это сделать - это то, что это легко сделать до того, как у вас появится модель. Ответ, который вы получили на этот связанный вопрос, выглядел как хороший ответ для меня, когда он был опубликован.
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.