Для ненормальных условий иногда прибегают к устойчивой регрессии , особенно используя ссылки на методы .
Чтобы представить контекст для ненормальности, это может помочь рассмотреть предположения для линейной регрессии OLS , которые:
- Слабая экзогенность . По сути это означает, что переменные-предикторы x могут рассматриваться как фиксированные значения, а не как случайные переменные. Это означает, например, что переменные предиктора предполагаются безошибочными, то есть не загрязненными ошибками измерения. Это предположение является наиболее часто нарушаемым и приводит к ошибкам, перечисленным в этом списке предположений.
- Линейность. Это означает, что среднее значение переменной отклика представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных предиктора. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные предиктора обрабатываются как фиксированные значения (см. Выше), линейность на самом деле является только ограничением параметров. Сами переменные предиктора могут быть произвольно преобразованы, и фактически может быть добавлено несколько копий одной и той же базовой переменной предиктора, причем каждая преобразуется по-разному.
- Постоянная дисперсия (она же гомоскедастичность). Это означает, что различные значения переменной ответа имеют одинаковую дисперсию в своих ошибках, независимо от значений переменных предиктора. На практике это предположение неверно (т.е. ошибки являются гетероскедастичными), если переменная отклика может варьироваться в широких пределах. Чтобы проверить наличие гетерогенной дисперсии ошибок или когда структура невязок нарушает допущения модели гомоскедастичности (ошибка одинаково переменна вокруг «наиболее подходящей линии» для всех точек x), разумно искать «эффект раздувания» между остаточной ошибкой и прогнозируемыми значениями. Это означает, что будет систематическое изменение абсолютных или квадратичных остатков при построении графика относительно прогнозных переменных. Ошибки не будут равномерно распределены по линии регрессии. Гетероскедастичность приведет к усреднению по различимым дисперсиям вокруг точек, чтобы получить единственную дисперсию, которая неточно представляет все дисперсии линии. В действительности, остатки выглядят сгруппированными и разбросанными на своих предсказанных графиках для больших и меньших значений для точек вдоль линии линейной регрессии, а среднеквадратичная ошибка для модели будет неправильной.
- Независимость от ошибок. Это предполагает, что ошибки переменных ответа не связаны друг с другом. (Фактическая статистическая независимость является более сильным условием, чем просто отсутствие корреляции, и часто не требуется, хотя ее можно использовать, если известно, что она выполняется. Последнее можно проверить с помощью кластерного анализа и коррекции взаимодействия.) Некоторые методы (например, обобщенные наименьшие квадраты) способны обрабатывать коррелированные ошибки, хотя обычно им требуется значительно больше данных, если только не используется какая-либо регуляризация для смещения модели в сторону принятия некоррелированных ошибок. Байесовская линейная регрессия является основным способом решения этой проблемы.
Статистическая связь между членами ошибки и регрессорами играет важную роль в определении того, обладает ли процедура оценки желаемыми свойствами выборки, такими как беспристрастность и согласованность.
Расположение или распределение вероятностей предикторных переменных x оказывает большое влияние на точность оценок β. Выборка и планирование экспериментов - это высокоразвитые подполя статистики, которые обеспечивают руководство для сбора данных таким образом, чтобы получить точную оценку β.
Поскольку этот ответ показывает, моделируются Student's- распределен оси Оу ошибок от линии приводит к МНК линии регрессии с доверительными интервалами для наклона и перехвата , что увеличение размера как степени свободы ( ) снижение. Для Стьюдент- является распределением Коши, и доверительные интервалы для наклона становятся .tydfdf=1t(−∞,+∞)
Произвольно вызывать распределение Коши по отношению к невязкам в том смысле, что, когда генерирующие ошибки распределены по Коши, остатки OLS из паразитной линии через данные будут еще менее надежными, то есть вход мусора - выход мусора. В этих случаях можно использовать регрессию Тейл-Сена . Theil-Sen, безусловно, более устойчив, чем OLS, для ненормальных остатков, например, распределенная ошибка Коши не приведет к ухудшению доверительных интервалов, и в отличие от OLS также является двумерной регрессией, однако в двумерном случае она все еще смещена. Регрессия по пассивному Баблоку может быть более двумерной и беспристрастной, но не относится к отрицательным наклонам регрессии. Это наиболее часто используется для сравнения методов исследования. Следует упомянуть регрессию Демингаздесь, в отличие от регрессий Тейл-Сена и Пассинга-Баблока, это реальное решение двумерной проблемы, но ей не хватает устойчивости этих других регрессий. Надежность может быть увеличена путем усечения данных, чтобы включить более центральные значения, например, консенсус случайной выборки (RANSAC) является итеративным методом для оценки параметров математической модели из набора наблюдаемых данных, который содержит выбросы.
Что же тогда является двумерной регрессией? Отсутствие тестирования на двумерный характер проблем является наиболее частой причиной разбавления регрессии МНК и было приятно представлено в других местах на этом сайте. Концепция смещения МНК в этом контексте не очень хорошо известна, см., Например, Frost и Thompson, как представлено Longford et al. (2001), который отсылает читателя к другим методам, расширяя регрессионную модель, чтобы признать изменчивость переменной , так что смещения не возникает . Другими словами, двумерная регрессия иногда не может быть проигнорирована, когда оба - иx1 x y x y y 2 x y x y = f ( x )1xy-значения распределяются случайным образом. Потребность в двумерной регрессии может быть проверена путем подгонки линии регрессии OLS к остаткам от регрессии OLS данных. Затем, если остатки OLS имеют ненулевой наклон, проблема является двумерной, а регрессия данных OLS будет иметь слишком малую величину наклона, а перехват, который будет слишком большим, чтобы представлять функциональные отношения между и . В этих случаях линейная оценка значений с наименьшей ошибкой действительно все равно будет получена из регрессии OLS, а ее значение R будет максимально возможным, но линия регрессии OLS не будет представлять фактическую линейную функцию, которая связана с иxyy2xy случайных величин. В качестве встречного примера, когда, как это происходит среди других проблем во временном ряду с равноотстоящими значениями , OLS необработанных данных не всегда неуместна, она может представлять лучшую линию , но все еще подвержена При преобразовании переменных, например, для данных подсчета, можно взять квадратный корень из отсчетов, чтобы преобразовать ошибки для распределенной ошибки Пуассона в более нормальные условия, и все же следует проверить ненулевой наклон остатков. xy=f(x)
- Лонгфорд, NT (2001). «Переписка». Журнал Королевского статистического общества, серия A. 164: 565. doi: 10.1111 / 1467-985x.00219