Почему стандартная ошибка перехвата увеличивается с увеличением

Стандартная ошибка свободного члена ( ) в задается $\hat{\beta}_0$ $y=\beta_1x+\beta_0+\varepsilon$

S E ({\hat{β}}_{0})^{2} = σ^{2} [\frac{1}{n} + \frac{{\bar{x}}^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}]

$SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]$ где

\bar{x}

$\bar{x}$ представляет собой среднее из

x_{i}

$x_i$ «ы.

Из того, что я понимаю, SE квантифицирует ваш uncertainty-, например, в 95% образцов, интервал будет содержать истинное . Я не понимаю, как SE, мера неопределенности, увеличивается с . Если я просто перенесу свои данные, так что , моя неопределенность уменьшится? Это кажется неразумным. $[\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]$ $\beta_0$ $\bar{x}$ $\bar{x}=0$

Аналогичная интерпретация - в uncentered версии моих соответствует моему предсказанию при , в то время как в центрированных соответствует моему предсказанию при . Так значит ли это, что моя неопределенность в отношении моего прогноза при больше, чем моя неопределенность в отношении моего прогноза при ? Это тоже кажется необоснованным, ошибка имеет одинаковую дисперсию для всех значений $\hat{\beta}_0$ $x=0$ $\hat{\beta}_0$ $x=\bar{x}$ $x=0$ $x=\bar{x}$ $\epsilon$ $x$ , поэтому моя неопределенность в моих предсказанных значениях должна быть одинаковой для всех . $x$

Я уверен, что в моем понимании есть пробелы. Может ли кто-нибудь помочь мне понять, что происходит?

regression interpretation standard-error

— elexhobby
источник

Вы когда-нибудь регрессировали против свидания? Многие компьютерные системы начинают свое существование в далеком прошлом, часто более 100 или более 2000 лет назад. Перехват оценивает ценность ваших данных, экстраполированных назад к тому времени начала. Насколько вы были бы уверены, скажем, в валовом внутреннем продукте Ирака в 0 году н.э. на основе регрессии ряда данных 21-го века?

— whuber

Я согласен, это имеет смысл, если вы думаете об этом таким образом. Это и ответ Ганга проясняют ситуацию.

— elexhobby

Этот ответ дает интуитивное объяснение (с диаграммами) того, как он возникает, приведением подгоночной линии в терминах подгонки к среднему значению

( подобранная линия проходит через

) и показывает, почему положение где линия может идти, распространяется по мере удаления от

(что вызвано неопределенностью на склоне).

\bar{x}

$\bar x$

(\bar{x}, \bar{y})

$(\bar x,\bar y)$

\bar{x}

$\bar x$

— Glen_b

Поскольку линия регрессии, соответствующая обычным наименьшим квадратам, обязательно пройдет через среднее значение ваших данных (т. ) - по крайней мере, до тех пор, пока вы не подавите перехват - неопределенность относительно истинного значения наклон не оказывает никакого влияния на вертикальное положение линии на среднее значение (т.е. при ). Это приводит к меньшей вертикальной неопределенности при чем дальше от . Если перехват, где является $(\bar x, \bar y)$ $x$ $\hat y_{\bar x}$ $\bar x$ $\bar x$ $x=0$ $\bar x$ , то это минимизирует вашу неопределенность относительно истинного значения $\beta_0$ . В математических терминах это выражается в минимально возможное значение стандартной ошибки для . $\hat\beta_0$

Вот быстрый пример в R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

Эта цифра немного занята, но вы можете увидеть данные нескольких разных исследований, где распределение было ближе или дальше от . Склоны немного отличаются от учебы к учебе, но в значительной степени похожи. (Обратите внимание , все они идут через кружок X , который я использовал для метки .) Тем не менее, неопределенность относительно истинного значения этих склонов вызывают неопределенность расширить в дальнейшем вы получите от , Это означает, что $x$ $0$ $(\bar x, \bar y)$ $\hat y$ $\bar x$ $SE(\hat\beta_0)$ очень широк для данных, которые были отобраны в окрестности , и очень узок для исследования, в котором данные были отобраны около . $x=10$ $x=0$

Редактировать в ответ на комментарий: К сожалению, центрирование данные после того, как вы их не помогут вам , если вы хотите знать , вероятно значения при некотором значений . Вместо этого вам необходимо сосредоточить сбор данных на том месте, о котором вы заботитесь в первую очередь. Чтобы лучше понять эти проблемы, вам может помочь прочесть мой ответ здесь: Интервал прогнозирования линейной регрессии . $y$ $x$ $x_\text{new}$

— Gung - Восстановить Монику
источник

Итак, допустим, почему-то меня больше всего интересует прогноз на значение

. Вышеприведенное объяснение подразумевает, что я не должен центрировать свои данные (т.е. смещать

так, чтобы

), а вместо этого сдвигать их так, чтобы

. Это верно?

x = x^{'}

$x=x'$

x

$x$

\bar{x} = 0

$\bar{x}=0$

\bar{x} = x^{'}

$\bar{x}=x'$

— elexhobby

(x^{'} - \bar{x})^{2}

$(x^\prime - \bar{x})^2$

{\bar{x}}^{2}

$\bar{x}^2$

@elexhobby, я добавил некоторую информацию, чтобы ответить на твой комментарий, возможно, тебе захочется взглянуть на связанный материал. Дайте мне знать, если вам все еще нужно больше.

— gung - Восстановить Монику

S E ({\hat{β}}_{1}) = \frac{σ^{2}}{\sum (x_{i} - \bar{x})^{2}}

$SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum(x_i-\bar{x})^2}$

x_{n e w}

$x_{new}$

S E ({\hat{β}}_{1}) (x_{n e w} - \bar{x})^{2}

$SE(\hat{\beta}_1)(x_{new}-\bar{x})^2$ . Furthermore, the error due to uncertainty in the vertical position of the line is

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Combine these together, and we get the uncertainty in the predicted value due to uncertainty in

{\hat{β}}_{1}

$\hat{\beta}_1$ and

{\hat{β}}_{0}

$\hat{\beta}_0$ is

\frac{σ^{2}}{n} + \frac{σ^{2} (x_{n e w} - \bar{x})^{2}}{\sum (x_{i} - \bar{x})^{2}}

$\frac{\sigma^2}{n}+\frac{\sigma^2(x_{new}-\bar{x})^2}{\sum(x_i-\bar{x})^2}$ . Correct me if I'm wrong.

— elexhobby

Furthermore, it is clear why the error in the vertical position is

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ - we know that the line has to pass through

\bar{y}

$\bar{y}$ at

x = \bar{x}

$x=\bar{x}$ . Now

\bar{y}

$\bar{y}$ contains the average of

n

$n$ iid errors, and hence will have SE equal to

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Wow! Thanks a lot for your diagram and clear explanation, I really appreciate.

— elexhobby