Поскольку линия регрессии, соответствующая обычным наименьшим квадратам, обязательно пройдет через среднее значение ваших данных (т. Е. ) - по крайней мере, до тех пор, пока вы не подавите перехват - неопределенность относительно истинного значения наклон не оказывает никакого влияния на вертикальное положение линии на среднее значение х (т.е. при у ˉ х ). Это приводит к меньшей вертикальной неопределенности при ˉ x, чем дальше от ˉ x . Если перехват, где х = 0 является ˉ х(x¯,y¯)xy^x¯x¯x¯x=0x¯ , то это минимизирует вашу неопределенность относительно истинного значения β0 . В математических терминах это выражается в минимально возможное значение стандартной ошибки для р 0 . β^0
Вот быстрый пример в R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Эта цифра немного занята, но вы можете увидеть данные нескольких разных исследований, где распределение было ближе или дальше от 0 . Склоны немного отличаются от учебы к учебе, но в значительной степени похожи. (Обратите внимание , все они идут через кружок X , который я использовал для метки ( ˉ х , ˉ у ) .) Тем не менее, неопределенность относительно истинного значения этих склонов вызывают неопределенность у расширить в дальнейшем вы получите от ˉ х , Это означает, что S Ex0(x¯,y¯)y^x¯SE(β^0)очень широк для данных, которые были отобраны в окрестности , и очень узок для исследования, в котором данные были отобраны около х = 0 . x=10x=0
Редактировать в ответ на комментарий: К сожалению, центрирование данные после того, как вы их не помогут вам , если вы хотите знать , вероятно значения при некотором х значений х новое . Вместо этого вам необходимо сосредоточить сбор данных на том месте, о котором вы заботитесь в первую очередь. Чтобы лучше понять эти проблемы, вам может помочь прочесть мой ответ здесь: Интервал прогнозирования линейной регрессии . yxxnew