Насколько некорректна модель регрессии, когда предположения не выполняются?


28

При подборе регрессионной модели, что произойдет, если предположения о выходных данных не будут выполнены, а именно

  1. Что произойдет, если остатки не будут гомоскедастичными? Если остатки показывают растущий или убывающий паттерн на графике Остатки против Приспособленного.
  2. Что произойдет, если остатки не распределены нормально и не пройдут тест Шапиро-Уилка? Критерий нормальности по Шапиро-Уилку является очень строгим, и иногда, даже если график Normal-QQ выглядит несколько разумным, данные не проходят тест.
  3. Что произойдет, если один или несколько предикторов обычно не распределены, не выглядят правильно на графике Normal-QQ или если данные не проходят тест Шапиро-Уилка?

Я понимаю, что нет жесткого черно-белого деления, что 0,94 верно, а 0,95 неправильно, и в этом вопросе я хочу знать:

  1. Что означает нарушение нормальности для модели, которая хорошо подходит в соответствии со значением R-Squared. Это становится менее надежным или совершенно бесполезным?
  2. В какой степени отклонение является приемлемым или вообще приемлемым?
  3. Применяя преобразования к данным для соответствия критериям нормальности, улучшается ли модель, если данные более нормальные (более высокое значение P в тесте Шапиро-Уилка, лучше выглядит на нормальном графике QQ), или это бесполезно (одинаково хорошо или плохо по сравнению с оригиналом) пока данные не пройдут нормальный тест?

Я думаю, что ответ на заголовок только "Да".
Томас Клеберг

@ThomasCleberg Интересный ответ. Это то, что вы также говорите, когда люди спрашивают вас "Как дела?" :)
JohnK

Нет, но это если они спросят меня, жив ли я. :)
Томас Клиберг

Основной вопрос, который нужно задать себе: «Для чего вы хотите использовать регрессионную модель?»
Флорис

Ответы:


32

Что произойдет, если остатки не будут гомоскедастичными? Если остатки показывают растущий или убывающий паттерн на графике Остатки против Приспособленного.

Если член ошибки не гомоскедастичен (мы используем остатки в качестве прокси для ненаблюдаемого члена ошибки), оценщик OLS все еще непротиворечив и беспристрастен, но больше не является наиболее эффективным в классе линейных оценок. Именно оценщик GLS теперь обладает этим свойством.

Что произойдет, если остатки не распределены нормально и не пройдут тест Шапиро-Уилка? Критерий нормальности по Шапиро-Уилку является очень строгим, и иногда, даже если график Normal-QQ выглядит несколько разумным, данные не проходят тест.

Нормальность не требуется по теореме Гаусса-Маркова. Оценщик OLS по-прежнему СИНИЙ, но без нормальности у вас будут трудности с выводом, т. Е. Проверкой гипотез и доверительными интервалами, по крайней мере для конечных размеров выборки. Однако, есть еще бутстрап.

Асимптотически это меньше проблем, так как оценщик OLS имеет предельное нормальное распределение в условиях умеренной регулярности.

Что произойдет, если один или несколько предикторов обычно не распределены, не выглядят правильно на графике Normal-QQ или если данные не проходят тест Шапиро-Уилка?

Насколько я знаю, предикторы либо считаются фиксированными, либо регрессия зависит от них. Это ограничивает эффект ненормальности.

Что означает нарушение нормальности для модели, которая хорошо подходит в соответствии со значением R-Squared. Это становится менее надежным или совершенно бесполезным?

R-квадрат - это доля дисперсии, которая объясняется моделью. Это не требует предположения о нормальности, и в любом случае это мера хорошего соответствия. Если вы хотите использовать его для частичного F-теста, это совсем другая история.

В какой степени отклонение является приемлемым или вообще приемлемым?

Вы имеете в виду отклонение от нормы, верно? Это действительно зависит от ваших целей, потому что, как я уже сказал, умозаключение становится сложным в отсутствие нормальности, но не является невозможным (начальная загрузка!).

Применяя преобразования к данным для соответствия критериям нормальности, улучшается ли модель, если данные более нормальные (более высокое значение P в тесте Шапиро-Уилка, лучше выглядит на нормальном графике QQ), или это бесполезно (одинаково хорошо или плохо по сравнению с оригиналом) пока данные не пройдут нормальный тест?

Короче говоря, если у вас есть все допущения Гаусса-Маркова плюс нормальность, тогда оценщик OLS является лучшим несмещенным (BUE), т.е. наиболее эффективным из всех классах оценок - достигается нижняя граница Крамера-Рао. Конечно, это желательно, но это не конец света, если этого не произойдет. Приведенные выше замечания применяются.

Что касается преобразований, имейте в виду, что, хотя распределение ответа может быть приближено к нормальному, интерпретация может не быть прямой после этого.

Это лишь несколько коротких ответов на ваши вопросы. Вы, кажется, особенно обеспокоены последствиями ненормальности. В целом, я бы сказал, что это не так катастрофично, как думают люди (были?), И есть обходные пути. Две ссылки, которые я включил, являются хорошей отправной точкой для дальнейшего чтения, первая из которых носит теоретический характер.

Рекомендации :

Хаяси, Фумио. : "Эконометрика", издательство Принстонского университета, 2000

Kutner, Michael H., et al. «Прикладные линейные статистические модели.», McGraw-Hill Irwin, 2005.


YИксяβя

2
Y

βяβяYY1,...,YN

@DeltaIV Что вы подразумеваете под "идеальной моделью"? Это истинная модель, линейная по параметрам. Однако это не ограничивает нас в рассмотрении в качестве оценщиков только линейных функций отклика. ГМ заявляет, что если мы ограничим наше внимание линейными функциями отклика, то OLS будет СИНИМ при некоторых дополнительных предположениях. Теперь, если мы тоже примем нормальность, то независимо от того, какую функцию ответа вы рассматриваете , вы просто не сможете добиться большего успеха, чем OLS, при условии, конечно, что оценщик объективен.
JohnK

Yяβя
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.