Начнем с интуиции.
Там ничего плохого в использовании предсказать Y I . Фактически, если мы не используем его, это означает, что мы выбрасываем ценную информацию. Однако чем больше мы в зависимости от информации , содержащейся в у я прийти с нашим прогнозом, тем более чрезмерно оптимистичными наша оценка будет.YяY^яYя
С одной стороны, если у я просто у я , вы будете иметь совершенное в образце предсказания ( R 2 = 1 ), но мы довольно уверены , что вне образца предсказания собирается быть плохим. В этом случае (это легко проверить самостоятельно), степени свободы будут d е ( у ) = п .Y^яYяр2= 1dе( у^) = n
С другой стороны, если вы используете выборочное среднее : y i = ^ y i = ˉ y для всех i , то ваши степени свободы будут равны 1.YYя= уя^= у¯я
Проверьте этот хороший раздаточный материал Райана Тибширани для более подробной информации об этой интуиции
Теперь аналогичное доказательство другого ответа, но с чуть более подробным объяснением.
Помните, что по определению средний оптимизм таков:
ω = EY( Eг ря н- е г г¯¯¯¯¯¯¯)
= EY( 1NΣя = 1NЕY0[ L ( Y0я, ф^( хя)|T) ] - 1NΣя = 1NL ( уя, ф^( хя) ) )
Теперь используйте функцию квадратичных потерь и расширите квадратные слагаемые:
= EY( 1NΣя = 1NЕY0[ ( Y0я-у^я)2] - 1NΣя =1N(уя-у^я)2) )
= 1NΣя = 1N( EYЕY0[ ( Y0я)2] + EYЕY0[ у^2я] - 2 EYЕY0[ Y0яY^я] - EY[ у2я] - EY[ у^2я] + 2 E[ уяY^я] )
используйте для замены:ЕYЕY0[ ( Y0я)2] = EY[ у2я]
=1N∑i=1N(Ey[y2i]+Ey[yi^2]−2Ey[yi]Ey[y^i]−Ey[y2i]−Ey[y^2i]+2E[yiy^i])
=2N∑i=1N(E[yiy^i]−Ey[yi]Ey[y^i])
Чтобы закончить, обратите внимание, что , что дает:Cov(x,w)=E[xw]−E[x]E[w]
=2N∑i=1NCov(yi,y^i)