Еще несколько шагов разложения Bias - Variance
В самом деле, полный вывод редко приводится в учебниках, так как в нем задействовано много скучной алгебры. Вот более полный вывод с использованием обозначения из книги «Элементы статистического обучения» на странице 223
Если мы предположим, что и и то мы можем вывести выражение для ожидаемой ошибки прогнозирования соответствия регрессии на входе с использованием квадрата потерьY=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵф ( X ) X = х 0f^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Для простоты обозначений пусть , и напомним, что иf^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Для термина мы можем использовать трюк, аналогичный описанному выше, добавляя и вычитая чтобы получитьE[(f−f^)2]E[f^]
E[(f−f^)2]=E[(f+E[f^]−E[f^]−f^)2]=E[f−E[f^]]2+E[f^−E[f^]]2=[f−E[f^]]2+E[f^−E[f^]]2=Bias2[f^]+Var[f^]
Положить его вместе
E[(Y−f^)2]=σ2ϵ+Bias2[f^]+Var[f^]
Некоторые комментарии о том, почемуE[f^Y]=fE[f^]
Взято от Алекоса Пападопулоса здесь
Напомним, что - это предсказатель, который мы построили на основе точек данных чтобы мы могли написать чтобы запомнить это.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m
С другой стороны, - это прогноз, который мы делаем для новой точки данных , используя модель, построенную на точках данных выше. Таким образом, средняя квадратическая ошибка может быть записана какY(x(m+1),y(m+1))m
E[f^m(x(m+1))−y(m+1)]2
Расширяя уравнение из предыдущего раздела
E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]
Последняя часть уравнения может рассматриваться как
E[f^m(x(m+1))⋅ϵ(m+1)]=0
Поскольку мы делаем следующие предположения о точке :x(m+1)
- Он не использовался при созданииf^m
- Он не зависит от всех других наблюдений{(x(1),y(1)),...,(x(m),y(m))}
- Он не зависит отϵ(m+1)
Другие источники с полными деривациями