Почему наклон всегда равен 1 при регрессии ошибок на остатках с использованием OLS?


10

Я экспериментировал с отношением между ошибками и невязками, используя несколько простых симуляций в R. Одна вещь, которую я обнаружил, заключается в том, что независимо от размера выборки или дисперсии ошибок, я всегда получаю ровно для наклона, когда вы подходите к модели1

еррорs~β0+β1×реsяdUaLs

Вот симуляция, которую я делал:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

eи rимеют высокую (но не идеальную) корреляцию даже для небольших выборок, но я не могу понять, почему это происходит автоматически. Математическое или геометрическое объяснение приветствуется.


5
В плоском треугольнике OXY с основанием OX высоты сторон YO и XY являются высотой самого треугольника. Для того, эти абсолютные высоты задаются коэффициентами lm(y~r), lm(e~r)и lm(r~r), которые , следовательно , должны быть все равны. Последний, очевидно, равен . Попробуйте все три из этих команд, чтобы увидеть. Чтобы последний работал, вам нужно создать копию , например . Подробнее о геометрических диаграммах регрессии см. Stats.stackexchange.com/a/113207 . 1Rrs<-r;lm(r~s)
whuber

1
Спасибо @whuber. Хотели бы вы дать ответ, чтобы я мог принять его, или, возможно, пометить его как дубликат?
GoF_Logistic

1
Я не думаю, что это дубликат, поэтому я расширил комментарий в ответ.
whuber

Ответы:


11

Уубер ответит отлично! (+1) Я решил эту проблему, используя наиболее знакомую мне нотацию, и подумал, что (менее интересный, более рутинный) вывод стоит включить сюда.

Пусть - модель регрессии, для X R n × p и ϵ шум. Тогда регрессия у против столбцов X имеет нормальные уравнения Х Т ( Y - X β ) = 0 , дающие оценки β = ( Х Т Х ) - 1 х Т у .Yзнак равноИксβ*+εИксрN×пεYИксИксT(Y-Иксβ^)знак равно0,

β^знак равно(ИксTИкс)-1ИксTY,
Поэтому регрессии имеет невязки для Н = Х ( Х Т Х ) - 1 х Т .
рзнак равноY-Иксβ^знак равно(я-ЧАС)Yзнак равно(я-ЧАС)ε,
ЧАСзнак равноИкс(ИксTИкс)-1ИксT

Регрессия на r приводит к оценочному наклону, определяемому как ( r T r ) - 1 r T ϵεр такя-Нсимметрична и идемпотентная иepsiям(X)почти наверное.

(рTр)-1рTεзнак равно([(я-ЧАС)ε]T[(я-ЧАС)ε])-1[(я-ЧАС)ε]Tεзнак равноεT(я-ЧАС)TεεT(я-ЧАС)T(я-ЧАС)εзнак равноεT(я-ЧАС)εεT(я-ЧАС)εзнак равно1,
я-ЧАСεям(Икс)

Кроме того, этот аргумент также сохраняется, если мы включаем перехват, когда мы выполняем регрессию ошибок для остатков, если перехват был включен в исходную регрессию, поскольку ковариаты ортогональны (т.е. из нормальных уравнений) ,1Tрзнак равно0


+1 Всегда приятно видеть, что решение разработано тщательно и четко.
whuber

11

ИксеYзнак равноβИкс+ебβрзнак равноY-бИксО

фигура

βИксеYбИксY-бИкср

ИксОY(βИкс)YррYрYереррр1


резнак равнор+(β-б)ИксYзнак равное+βИксзнак равнор+(2β-б)ИксИксИксрр1Икср

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.