Интуиция о знаках «плюс», связанных с дисперсией (из того факта, что даже когда мы вычисляем дисперсию разности независимых случайных величин, мы добавляем их дисперсии), правильна, но фатально неполна: если задействованные случайные переменные не являются независимыми тогда также участвуют ковариации - и ковариации могут быть отрицательными. Существует выражение, которое почти похоже на то, что выражение в вопросе считалось, что оно «должно» быть у ОП (и у меня), и это дисперсия ошибки предсказания , обозначаем ее , где :у 0 = β 0 + β 1 х 0 + U 0e0=y0−y^0y0=β0+β1x0+u0
Var(e0)=σ2⋅(1+1n+(x0−x¯)2Sxx)
Критическая разница между дисперсией ошибки предсказания и дисперсией оценки погрешности (т.е. невязки), является то , что этот термин ошибки предсказанного наблюдения не коррелирует с оценкой , так как значение были не используются в построение оценщика и вычисление оценок, являющихся значением вне выборки.y0
Алгебра для обоих продолжается точно до точки (используя вместо ), но затем расходится. В частности:я0i
В простой линейной регрессии , , дисперсия оценки прежнему вар ( U я ) = σ 2 β = ( β 0 , & beta ; 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)′
Var(β^)=σ2(X′X)−1
У нас есть
Икс'X = [ n∑ хя∑ хя∑ х2я]
и так
( X'Х )- 1= [ ∑ x2я- ∑ хя- ∑ хяN] ⋅ [ п Σ х2я- ( ∑ хя)2]- 1
У нас есть
[ n ∑ x2я- ( ∑ хя)2] = [ n ∑ x2я- н2Икс¯2] =n [ ∑ x2я- н х¯2]=n∑(x2i−x¯2) ≡nSх х
Так
( X'Х )- 1= [ ( 1 / n ) ∑ x2я- х¯- х¯1] ⋅(1 / Sх х)
что обозначает
Вар ( β^0) =σ2(1NΣx2я) ⋅(1 / S х х) = σ2NSх х+ nx¯2Sх х= σ2(1N+x¯2Sх х)
Вар ( β^1) = σ2(1/Sxx)
Cov(β^0,β^1)=−σ2(x¯/Sxx)
-й остаточный определяются какi
u^i=yi−y^i=(β0−β^0)+(β1−β^1)xi+ui
Фактические коэффициенты рассматриваются как константы, то регрессор фиксируются (или зависимость от него), и имеют нулевую ковариацию с ошибкой, но эти оценщики коррелируют с ошибкой, потому что оценщики содержат зависимые переменные, и зависимые переменные содержит термин ошибки. Итак, мы имеем
Var(u^i)=[Var(ui)+Var(β^0)+x2iVar(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
=[σ2+σ2(1n+x¯2Sxx)+x2iσ2(1/Sxx)+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Соберись немного, чтобы получить
Var(u^i)=[σ2⋅(1+1n+(xi−x¯)2Sxx)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Термин в больших круглых скобках имеет точно такую же структуру, что и дисперсия ошибки предсказания, с единственным изменением в том, что вместо у нас будет (а дисперсия будет равна а не ). Последний член ковариации равен нуль для ошибки предсказания , потому что и , следовательно является не включен в оценках, но не равно нуль погрешности оценки , так и , следовательно является частью образца и поэтому он включен в оценщик. У нас естьх 0 е 0 у я у 0 U 0 у я у яxix0e0u^iy0u0yiuя
2 Cov ([(β0-β^0) + (β1-β^1)xя] ,uя) = 2E( [ (β0-β^0) + (β1-β^1)xя]uя)
= - 2 Е( β^0Uя) -2 хяЕ( β^1Uя) =-2Е( [ у¯- β^1Икс¯] тыя) -2 хяЕ( β^1Uя)
последняя замена от того, как вычисляется . Продолжая,β^0
, , , = - 2E( у¯Uя) - 2 ( хя- х¯) E( β^1Uя) =-2 σ2N- 2 ( хя- х¯) E[ ∑ ( хя- х¯) ( уя- у¯)Sх хUя]
= - 2 σ2N- 2 ( хя- х¯)Sх х[ ∑ ( хя- х¯) E( уяUя- у¯Uя) ]
= - 2 σ2N- 2 ( хя- х¯)Sх х[ - σ2NΣJ ≠ я( хJ- х¯) + ( хя- х¯) σ2( 1 - 1N) ]
= - 2 σ2N- 2 ( хя- х¯)Sх х[ - σ2N∑ ( хя- х¯) + ( хя- х¯) σ2]
= - 2 σ2N- 2 ( хя- х¯)Sх х[ 0 + ( хя- х¯) σ2] =-2 σ2N- 2 σ2( хя- х¯)2Sх х
Подставляя это в выражение для дисперсии остатка, получим
Вар ( ты^я) = σ2⋅ ( 1 - 1N- ( хя- х¯)2Sх х)
Так что снимаю шляпу перед текстом, который использует ОП.
(Я пропустил некоторые алгебраические манипуляции, неудивительно, что алгебре МЖС учат все меньше и меньше в наши дни ...)
НЕКОТОРЫЕ ИНТУИЦИИ
Таким образом, получается, что то, что работает "против" нас (большая дисперсия) при прогнозировании, работает "для нас" (более низкая дисперсия) при оценке. Это хорошая отправная точка для размышления, почему отличная подгонка может быть плохим признаком для предсказательных способностей модели (как бы нелогично это ни звучало ...).
Тот факт, что мы оцениваем ожидаемое значение регрессора, уменьшает дисперсию на . Почему? потому что, оценивая , мы «закрываем глаза» на некоторую изменчивость ошибок, существующую в выборке, поскольку мы по существу оцениваем ожидаемое значение. Более того, чем больше отклонение наблюдения регрессора от среднего значения выборки регрессора,1 / nдисперсия остатка, связанного с этим наблюдением, будет ... чем более отклоняющееся наблюдение, тем менее отклоняющимся является его остаток ... переменность регрессоров, которая работает для нас, "занимая место" неизвестной ошибки - изменчивость.
Но это хорошо для оценки . Что касается предсказания , то же самое оборачивается против нас: теперь, не принимая во внимание, хотя и несовершенно, изменчивость (поскольку мы хотим ее предсказать), наши несовершенные оценки, полученные из выборки, показывают их слабые стороны: мы оценили выборка означает, что мы не знаем истинного ожидаемого значения - дисперсия увеличивается. У нас есть который находится далеко от среднего значения выборки, рассчитанного по другим наблюдениям - слишком плохо, наша дисперсия ошибки предсказания получает еще один импульс, потому что предсказанный будет иметь тенденцию отклоняться ... в более научный язык "оптимальные предикторы в смысле уменьшения ошибки прогнозирования, представляют собойх 0 у 0Y0Икс0 Y^0сужение к среднему значению предсказываемой переменной ". Мы не пытаемся копировать изменчивость зависимой переменной - мы просто стараемся оставаться" близко к среднему ".