Регрессия, когда остатки OLS обычно не распределяются


45

На этом сайте есть несколько потоков, обсуждающих, как определить, асимптотически ли нормально распределены остатки OLS . В этом превосходном ответе представлен другой способ оценки нормальности остатков с помощью R-кода . Это еще одно обсуждение практической разницы между стандартизированными и наблюдаемыми остатками.

Но допустим, что остатки определенно не распределяются нормально, как в этом примере . Здесь у нас есть несколько тысяч наблюдений, и, очевидно, мы должны отвергнуть предположение о нормально распределенных невязках. Одним из способов решения проблемы является использование некоторой формы надежной оценки, как объяснено в ответе. Однако я не ограничен OLS и на самом деле я хотел бы понять преимущества других glm или нелинейных методологий.

Каков наиболее эффективный способ моделирования данных, нарушающих допущение нормальности остатков OLS? Или, по крайней мере, каким должен быть первый шаг к разработке методологии надежного регрессионного анализа?


5
Есть также несколько потоков, обсуждающих, как нормальность по существу не имеет значения для многих целей. Если у вас есть независимые наблюдения и, по крайней мере, умеренный размер выборки, единственное, что имеет значение для вывода OLS, - это то, что все остатки имеют одинаковую дисперсию. Не нормальность. Если вы используете надежные / согласованные с гетероскедастичностью / сэндвичевские / Huber-Eicker-White оценки стандартной ошибки, тогда даже требование постоянной дисперсии не требуется.
гость

@guest Я только читаю об эффективности теста нормальности в этой теме. Регрессионный анализ даже не помечен.
Роберт Кубрик

Попробуйте это . Вот внешняя ссылка . И посмотрите главы OLS, например, Stock и Watson, Введение в эконометрику . Клянусь, я не придумываю это!
гость

@guest Две ссылки имеют дело с нормальным распределением результатов, а не остатков.
Роберт Кубрик

1
Нет, они этого не делают. Авторы часто ссылаются на «распределение Y» как сокращение для «распределения Y, условного на X». Чтобы вернуться к исходному вопросу; если у вас нет крошечной выборки или данных с массивным хвостом, использование OLS с устойчивыми стандартными ошибками является хорошим первым шагом. В этих случаях нормальность просто не проблема.
гость

Ответы:


54

Обычная оценка наименьших квадратов все еще является разумной оценкой перед лицом ненормальных ошибок. В частности, теорема Гаусса-Маркова гласит, что обычная оценка наименьших квадратов является наилучшей линейной несмещенной оценкой (СИНИЙ) для коэффициентов регрессии («Наилучший» означает оптимальный с точки зрения минимизации среднеквадратичной ошибки ) до тех пор, пока ошибки

(1) имеет среднее значение ноль

(2) некоррелированы

(3) имеют постоянную дисперсию

Обратите внимание, что здесь нет условия нормальности (или даже любого условия, что ошибки являются IID ).

Условие нормальности вступает в игру, когда вы пытаетесь получить доверительные интервалы и / или . Как упоминает @MichaelChernick (+1, кстати), вы можете использовать надежный вывод, когда ошибки ненормальны, если отклонение от нормальности может быть обработано методом - например, (как мы обсуждали в этой теме) Huber -estimator может обеспечить надежный вывод, когда истинное распределение ошибок представляет собой смесь между нормальным и длиннохвостым распределением (как выглядит ваш пример), но может не быть полезным для других отклонений от нормальности. Одна интересная возможность, на которую ссылается Майкл, - это начальная загрузка, чтобы получить доверительные интервалы для оценок OLS и увидеть, как это сравнивается с выводом на основе Губера.МpM

Редактировать: Я часто слышу, как говорится, что вы можете положиться на Центральную предельную теорему, чтобы справиться с ненормальными ошибками - это не всегда верно (я не просто говорю о контрпримерах, где теорема не выполняется). В примере с реальными данными, на который ссылается OP, у нас большой размер выборки, но мы можем видеть свидетельство распределения длиннохвостых ошибок - в ситуациях, когда у вас есть ошибки длиннохвостого типа, вы не всегда можете полагаться на Центральную предельную теорему, чтобы дать вы примерно объективный вывод для реалистичных конечных размеров выборки. Например, если ошибки следуют -распределение с степенями свободы (которая не является явно более2,01t2.01 с длинными хвостами, чем ошибки, наблюдаемые в данных ОП), оценки коэффициентов асимптотически нормально распределены, но для «включения» требуется гораздо больше времени, чем для других распределений с короткими хвостами.

Ниже я демонстрирую грубое моделирование того, Rчто когда , где , распределение выборки все еще довольно длинный хвост, даже если размер выборки :ε я ~ т 2,01 β 1 п = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

введите описание изображения здесь


2
+1, это действительно отличный обзор темы. Я особенно ценю редактирование. Есть ли что-то особенное в ? Это кажется ужасно конкретным. df=2.01
gung - Восстановить Монику

2
@ gung, спасибо - я выбрал поскольку дисперсия -распределенной случайной величины не существует, когда и поэтому центральная предельная теорема неприменима. t d f 2df=2.01tdf2
Макро

1
@guest, это был надуманный пример, чтобы показать, что вы не можете слепо доверять CLT, когда у вас есть длинные ошибки. Я согласен, что это экстремально для многих приложений, но в примере ( stats.stackexchange.com/questions/29636/… ), на который ссылается OP, данные показывают очень длинное хвостовое распределение ошибок - форма немного отличается от распределение, но оно явно не менее длиннохвостое, и оно получилось в результате реальных данных. Я отредактировал «Редактировать», чтобы выделить это. t2.01
Макро

2
@ Макро, я согласен на слепое использование CLT. Но требование нормальных данных для доверительных интервалов и значений - и не просто требование данных с «легкими хвостами» - значительно избыточно и поощряет, например, обратные преобразования Нормала, которые только затрудняют интерпретацию выходных данных. Баланс для забастовки находится между ответом на правильный вопрос приблизительно против точного; если правильный подход включает сравнение популяционных средств, использование OLS - верный путь. p
гость

2
@ guest, я никогда не спорил с OLS. На самом деле, я думаю, что большая часть моего ответа заключалась в том, что OLS была разумной вещью, независимо от предположений о распределении. Я также никогда не утверждал, что для вывода следует соблюдать строгую нормальность - я говорю о том, что, когда у вас длинные хвостовые ошибки, вывод, основанный на нормальном приближении, может вводить в заблуждение (я не уверен, как / если это не соответствует все с тем, что вы говорите), и было бы хорошо, чтобы рассмотреть альтернативу (например, начальной загрузки). ,
Макро

10

Я думаю, что вы хотите посмотреть на все свойства остатков.

  1. нормальность
  2. постоянная дисперсия
  3. соотносится с ковариатой.
  4. комбинации вышеперечисленного

Если это всего 1 и это происходит из-за тяжелых хвостов или асимметрии из-за одного тяжелого хвоста, устойчивая регрессия может быть хорошим подходом или, возможно, преобразованием в нормальное состояние. Если это непостоянная дисперсия, попробуйте преобразование, стабилизирующее дисперсию, или попытайтесь смоделировать функцию дисперсии. Если это всего лишь 3, это предполагает другую форму модели, включающую этот ковариат. Какая бы проблема ни возникала при загрузке векторов или остатков, это всегда вариант.


Для 1, можете ли вы немного рассказать о преобразовании в нормальное состояние для остатков с тяжелыми хвостами?
Роберт Кубрик

2
бревно трансформации или бокс-кокс с маленькой лямбдой сжимают хвосты. Это может работать для какого-то тяжелого и искаженного дистрибутива. Я не знаю, что если какие-то преобразования будут работать для очень тяжелых дистрибутивов.
Майкл Р. Черник

3
Хорошие ответы Майкл. Я начал более регулярно использовать загрузчик для доверительных интервалов, включающих регрессионные оценки и общие контрасты, и сделал это легко в моем rmsпакете R. Но, как вы предложили, поиск преобразования, улучшающего стабильность отклонений и иногда улучшающего нормальность остатков, часто имеет несколько преимуществ, даже если мы загружаемся. Оценки наименьших квадратов с использованием «неправильного» преобразования могут быть очень неэффективными и приводить к большим средним абсолютным и средним абсолютным ошибкам в прогнозах. Мне также нравится использовать полупараметрические регрессионные модели.
Фрэнк Харрелл

2

Мой опыт полностью соответствует Майклу Чернику. Применение преобразования данных не только иногда делает ошибку моделирования нормально распределенной, но и исправляет гетероскедастичность.

Извините, но предлагать иное, например, собирать безумное количество данных или использовать менее эффективные методы регрессии, на мой взгляд, вводить в заблуждение эту науку / искусство ошибочно.


1

Макрос (только выше) указал правильный ответ. Просто некоторая точность, потому что у меня был тот же вопрос

Условие нормальности остатков полезно, когда остатки также гомоскедастичны. В результате OLS имеет наименьшую дисперсию между всеми оценщиками (линейное ИЛИ нелинейное).

Расширенные допущения OLS:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. Большие выбросы редки
  4. ты гомоскедастик
  5. и распределеноN(0,σ2)

если 1-5 проверено, то OLS имеет наименьшую дисперсию между всеми оценщиками (линейное ИЛИ нелинейное) .

если проверено только 1-4, то по Гауссу-Маркову OLS является наилучшей линейной (только!) оценкой (СИНИЙ).

Источник: Сток и Уотсон, эконометрика + мой курс (EPFL, эконометрика)


Не существует требования для нормальности для обычных наименьших квадратов по y остаткам, хотя нормальность придает некоторые желательные свойства, например, для анализа максимальной вероятности. Последний часто используется для информационного критерия Акаике. Тем не менее, это неоправданно ограничительно, редко встречается, и более формальным требованием является гомоскедастичность, а не нормальность, что является удачным, поскольку в противном случае было бы мало пользы для обычных наименьших квадратов в y.
Карл

@Carl: строго говоря, для OLS не требуется никаких требований, даже 1 или 2 (попросите Excel запустить регрессию, и она не будет задавать никаких вопросов): нормальность - это одно из нескольких свойств, которые делают вывод логичным, например прогнозирование, доверие интервалы, тесты.
PatrickT

@PatrickT Умение что-то вычислять не имеет смысла. Например, линейная регрессия OLS вокруг линии с распределенными ошибками значения Коши увеличивает CI наклона и перехвата, чтобы допустить практически что-либо, но не возвращает исходную линию или наклон. Можно было бы назвать это пирровым расчетом. y
Карл

Мы должны говорить то же самое. Возможно, выражение вашего первого комментария смутило меня.
PatrickT

1

Для ненормальных условий иногда прибегают к устойчивой регрессии , особенно используя ссылки на методы .

Чтобы представить контекст для ненормальности, это может помочь рассмотреть предположения для линейной регрессии OLS , которые:

  • Слабая экзогенность . По сути это означает, что переменные-предикторы x могут рассматриваться как фиксированные значения, а не как случайные переменные. Это означает, например, что переменные предиктора предполагаются безошибочными, то есть не загрязненными ошибками измерения. Это предположение является наиболее часто нарушаемым и приводит к ошибкам, перечисленным в этом списке предположений.
  • Линейность. Это означает, что среднее значение переменной отклика представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных предиктора. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные предиктора обрабатываются как фиксированные значения (см. Выше), линейность на самом деле является только ограничением параметров. Сами переменные предиктора могут быть произвольно преобразованы, и фактически может быть добавлено несколько копий одной и той же базовой переменной предиктора, причем каждая преобразуется по-разному.
  • Постоянная дисперсия (она же гомоскедастичность). Это означает, что различные значения переменной ответа имеют одинаковую дисперсию в своих ошибках, независимо от значений переменных предиктора. На практике это предположение неверно (т.е. ошибки являются гетероскедастичными), если переменная отклика может варьироваться в широких пределах. Чтобы проверить наличие гетерогенной дисперсии ошибок или когда структура невязок нарушает допущения модели гомоскедастичности (ошибка одинаково переменна вокруг «наиболее подходящей линии» для всех точек x), разумно искать «эффект раздувания» между остаточной ошибкой и прогнозируемыми значениями. Это означает, что будет систематическое изменение абсолютных или квадратичных остатков при построении графика относительно прогнозных переменных. Ошибки не будут равномерно распределены по линии регрессии. Гетероскедастичность приведет к усреднению по различимым дисперсиям вокруг точек, чтобы получить единственную дисперсию, которая неточно представляет все дисперсии линии. В действительности, остатки выглядят сгруппированными и разбросанными на своих предсказанных графиках для больших и меньших значений для точек вдоль линии линейной регрессии, а среднеквадратичная ошибка для модели будет неправильной.
  • Независимость от ошибок. Это предполагает, что ошибки переменных ответа не связаны друг с другом. (Фактическая статистическая независимость является более сильным условием, чем просто отсутствие корреляции, и часто не требуется, хотя ее можно использовать, если известно, что она выполняется. Последнее можно проверить с помощью кластерного анализа и коррекции взаимодействия.) Некоторые методы (например, обобщенные наименьшие квадраты) способны обрабатывать коррелированные ошибки, хотя обычно им требуется значительно больше данных, если только не используется какая-либо регуляризация для смещения модели в сторону принятия некоррелированных ошибок. Байесовская линейная регрессия является основным способом решения этой проблемы.
  • Статистическая связь между членами ошибки и регрессорами играет важную роль в определении того, обладает ли процедура оценки желаемыми свойствами выборки, такими как беспристрастность и согласованность.

  • Расположение или распределение вероятностей предикторных переменных x оказывает большое влияние на точность оценок β. Выборка и планирование экспериментов - это высокоразвитые подполя статистики, которые обеспечивают руководство для сбора данных таким образом, чтобы получить точную оценку β.

Поскольку этот ответ показывает, моделируются Student's- распределен оси Оу ошибок от линии приводит к МНК линии регрессии с доверительными интервалами для наклона и перехвата , что увеличение размера как степени свободы ( ) снижение. Для Стьюдент- является распределением Коши, и доверительные интервалы для наклона становятся .tydfdf=1t(,+)

Произвольно вызывать распределение Коши по отношению к невязкам в том смысле, что, когда генерирующие ошибки распределены по Коши, остатки OLS из паразитной линии через данные будут еще менее надежными, то есть вход мусора - выход мусора. В этих случаях можно использовать регрессию Тейл-Сена . Theil-Sen, безусловно, более устойчив, чем OLS, для ненормальных остатков, например, распределенная ошибка Коши не приведет к ухудшению доверительных интервалов, и в отличие от OLS также является двумерной регрессией, однако в двумерном случае она все еще смещена. Регрессия по пассивному Баблоку может быть более двумерной и беспристрастной, но не относится к отрицательным наклонам регрессии. Это наиболее часто используется для сравнения методов исследования. Следует упомянуть регрессию Демингаздесь, в отличие от регрессий Тейл-Сена и Пассинга-Баблока, это реальное решение двумерной проблемы, но ей не хватает устойчивости этих других регрессий. Надежность может быть увеличена путем усечения данных, чтобы включить более центральные значения, например, консенсус случайной выборки (RANSAC) является итеративным методом для оценки параметров математической модели из набора наблюдаемых данных, который содержит выбросы.

Что же тогда является двумерной регрессией? Отсутствие тестирования на двумерный характер проблем является наиболее частой причиной разбавления регрессии МНК и было приятно представлено в других местах на этом сайте. Концепция смещения МНК в этом контексте не очень хорошо известна, см., Например, Frost и Thompson, как представлено Longford et al. (2001), который отсылает читателя к другим методам, расширяя регрессионную модель, чтобы признать изменчивость переменной , так что смещения не возникает . Другими словами, двумерная регрессия иногда не может быть проигнорирована, когда оба - иx1 x y x y y 2 x y x y = f ( x )1xy-значения распределяются случайным образом. Потребность в двумерной регрессии может быть проверена путем подгонки линии регрессии OLS к остаткам от регрессии OLS данных. Затем, если остатки OLS имеют ненулевой наклон, проблема является двумерной, а регрессия данных OLS будет иметь слишком малую величину наклона, а перехват, который будет слишком большим, чтобы представлять функциональные отношения между и . В этих случаях линейная оценка значений с наименьшей ошибкой действительно все равно будет получена из регрессии OLS, а ее значение R будет максимально возможным, но линия регрессии OLS не будет представлять фактическую линейную функцию, которая связана с иxyy2xy случайных величин. В качестве встречного примера, когда, как это происходит среди других проблем во временном ряду с равноотстоящими значениями , OLS необработанных данных не всегда неуместна, она может представлять лучшую линию , но все еще подвержена При преобразовании переменных, например, для данных подсчета, можно взять квадратный корень из отсчетов, чтобы преобразовать ошибки для распределенной ошибки Пуассона в более нормальные условия, и все же следует проверить ненулевой наклон остатков. xy=f(x)

  1. Лонгфорд, NT (2001). «Переписка». Журнал Королевского статистического общества, серия A. 164: 565. doi: 10.1111 / 1467-985x.00219
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.