Остатки являются нашими оценками ошибок
Краткий ответ на этот вопрос относительно прост: предположения в регрессионной модели - это предположения о поведении членов ошибки, а невязки - наши оценки членов ошибки. Таким образом , изучение поведения наблюдаемых остатков говорит нам о том, правдоподобны ли предположения об условиях ошибки.
Чтобы понять эту общую линию рассуждений более подробно, это помогает детально изучить поведение остатков в стандартной регрессионной модели. При стандартной множественной линейной регрессии с независимыми терминами нормальной погрешности гомоскедастика известно распределение остаточного вектора, что позволяет проверить основные предположения о распределении в регрессионной модели. Основная идея состоит в том, что вы вычисляете распределение остаточного вектора при допущениях регрессии, а затем проверяете, соответствуют ли остаточные значения этому теоретическому распределению. Отклонения от теоретического распределения остатков показывают, что предполагаемое распределение ошибочных членов в некотором отношении неверно.
Если используется базовое распределение ошибок ϵi∼IID N(0,σ2) для стандартной модели регрессии и использовании МНК оценки для коэффициентов, то распределение остатков может быть показано, что многомерное нормальное распределение:
r=(I−h)ϵ∼N(0,σ2(I−h)),
где является шляпной матрицей для регрессии. Остаточный вектор имитирует вектор ошибки, но матрица дисперсии имеет дополнительный мультипликативный член . Для проверки регрессионных допущений мы используем студентизированные остатки, которые имеют предельное Т-распределение:h=x(xTx)−1xT I - hI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Эта формула предназначена для внештатных ученических остатков, где оценщик отклонений исключает рассматриваемую переменную. Значения являются значениями левереджа, которые являются диагональными значениями в матрице шляп . Студенческие остатки не являются независимые, но если большое, они близки к независимым. Это означает, что предельное распределение является простым известным распределением, но совместное распределение является сложным.) Теперь, если предел существует, тогда можно показать, что оценки коэффициентов являются последовательными оценками истинных коэффициентов регрессии, а остатки являются последовательными оценками Термины истинной ошибки.li=hi,i n lim n → ∞ ( x T x ) / n = Δnlimn→∞(xTx)/n=Δ
По сути, это означает, что вы проверяете базовые предположения распределения для условий ошибки, сравнивая обученные остатки с T-распределением. Каждое из лежащих в основе свойств распределения ошибок (линейность, гомоскедастичность, некоррелированные ошибки, нормальность) может быть проверено с использованием аналогичных свойств распределения обучаемых остатков. Если модель задана правильно, то для больших остатки должны быть близки к истинным членам ошибки, и они имеют подобную форму распределения.n
Пропуск пояснительной переменной из регрессионной модели приводит к отсутствию смещения переменной в оценках коэффициента, и это влияет на остаточное распределение. На среднее значение и дисперсию остаточного вектора влияет пропущенная переменная. Если в регрессии пропущены термины то остаточный вектор становится . Если векторы данных в пропущенной матрице являются нормальными векторами IID и не зависят от членов ошибки, тоZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) так что остаточное распределение становится:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Если в модели уже есть член-перехват (т. Если единичный вектор находится в проектной матрице), то1(I−h)1=0, что означает, что стандартная форма распределения остатков сохраняется. Если в модели отсутствует член перехвата, тогда пропущенная переменная может дать ненулевое среднее для остатков. Альтернативно, если пропущенная переменная не является нормальным IID, это может привести к другим отклонениям от стандартного остаточного распределения. В этом последнем случае остаточные тесты вряд ли обнаружат что-либо в результате наличия пропущенной переменной; обычно невозможно определить, происходят ли отклонения от теоретического остаточного распределения в результате пропущенной переменной или просто из-за некорректной связи с включенными переменными (и, возможно, это одно и то же в любом случае).