Понимание происхождения компромисса смещения дисперсии

Я читаю главу о компромиссах смещения дисперсии элементов статистического обучения, и у меня есть сомнения в формуле на стр. 29. Пусть данные возникают из такой модели, что где - случайный число с ожидаемым значением и дисперсией . Пусть ожидаемое значение ошибки модели составляет где - это предсказание нашего ученика. Согласно книге, ошибка

Y = f (x) + ϵ

$Y = f(x)+\epsilon$

ϵ

$\epsilon$

\hat{ϵ} = E [ϵ] = 0

$\hat{\epsilon} = E[\epsilon]=0$

E [(ϵ - \hat{ϵ})^{2}] = E [ϵ^{2}] = σ^{2}

$E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2$

E [(Y - f_{k} (x))^{2}]

$E[(Y-f_k(x))^2]$

f_{k} (x)

$f_k(x)$

x

$x$

E [(Y - f_{k} (x))^{2}] = σ^{2} + B i a s (f_{k})^{2} + V a r (f_{k} (x)) .

$E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)).$

Мой вопрос, почему термин смещения не равен 0? Развивая формулу ошибки, я вижу

E [(Y - f_{k} (x))^{2}] = E [(f (x) + ϵ - f_{k} (x))^{2}] = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] = V a r (f_{k} (x)) + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

поскольку является независимым случайным числом $\epsilon$ $2E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0$

Где я не прав?

— Emanuele
источник

Вы не ошиблись, но вы сделали ошибку за один шаг, так как $E[(f(x)-f_k(x))^2] \ne Var(f_k(x))$ . $E[(f(x)-f_k(x))^2]$ is $\text{MSE}(f_k(x)) = Var(f_k(x)) + \text{Bias}^2(f_k(x))$ ,

\begin{aligned} E [(Y - f_{k} (x))^{2}] & = E [(f (x) + ϵ - f_{k} (x))^{2}] \\ = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] \\ = E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2} \\ = V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2} . \end{aligned}

$\begin{align*} E[(Y-f_k(x))^2]& = E[(f(x)+\epsilon-f_k(x))^2] \\ &= E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]\\ &= E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2 \\ & = Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2. \end{align*}$

Примечание: $E[(f_k(x)-E(f_k(x)))(f(x)-E(f_k(x))] = E[f_k(x)-E(f_k(x))](f(x)-E(f_k(x))) = 0.$

— Greenparker
источник

В случае бинарных результатов, есть ли эквивалентное доказательство с перекрестной энтропией как мера ошибки?

— Эммануил

Это не очень хорошо работает с двоичным ответом. См. Ex 7.2 во втором издании «Элементы статистического обучения».

— Мэтью Друри,

Не могли бы вы объяснить, как вы идете от к ?

E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2}

$Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2$

— Антуан

Еще несколько шагов разложения Bias - Variance

В самом деле, полный вывод редко приводится в учебниках, так как в нем задействовано много скучной алгебры. Вот более полный вывод с использованием обозначения из книги «Элементы статистического обучения» на странице 223

Если мы предположим, что и и то мы можем вывести выражение для ожидаемой ошибки прогнозирования соответствия регрессии на входе с использованием квадрата потерь $Y = f(X) + \epsilon$ $E[\epsilon] = 0$ $Var(\epsilon) = \sigma^2_\epsilon$ $\hat f(X)$ $X = x_0$

E r r (x_{0}) = E [(Y - \hat{f} (x_{0}))^{2} | X = x_{0}]

$Err(x_0) = E[ (Y - \hat f(x_0) )^2 | X = x_0]$

Для простоты обозначений пусть , и напомним, что и $\hat f(x_0) = \hat f$ $f(x_0) = f$ $E[f] = f$ $E[Y] = f$

\begin{aligned} E [(Y - \hat{f})^{2}] & = E [(Y - f + f - \hat{f})^{2}] \\ = E [(y - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [(f - \hat{f}) (y - f)] \\ = E [(f + ϵ - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [f Y - f^{2} - \hat{f} Y + \hat{f} f] \\ = E [ϵ^{2}] + E [(f - \hat{f})^{2}] + 2 (f^{2} - f^{2} - f E [\hat{f}] + f E [\hat{f}]) \\ = σ_{ϵ}^{2} + E [(f - \hat{f})^{2}] + 0 \end{aligned}

$\begin{aligned} E[ (Y - \hat f)^2 ] &= E[(Y - f + f - \hat f )^2] \\ & = E[(y - f)^2] + E[(f - \hat f)^2] + 2 E[(f - \hat f)(y - f)] \\ & = E[(f + \epsilon - f)^2] + E[(f - \hat f)^2] + 2E[fY - f^2 - \hat f Y + \hat f f] \\ & = E[\epsilon^2] + E[(f - \hat f)^2] + 2( f^2 - f^2 - f E[\hat f] + f E[\hat f] ) \\ & = \sigma^2_\epsilon + E[(f - \hat f)^2] + 0 \end{aligned}$

Для термина мы можем использовать трюк, аналогичный описанному выше, добавляя и вычитая чтобы получить $E[(f - \hat f)^2]$ $E[\hat f]$

\begin{aligned} E [(f - \hat{f})^{2}] & = E [(f + E [\hat{f}] - E [\hat{f}] - \hat{f})^{2}] \\ = E {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = B i a s^{2} [\hat{f}] + V a r [\hat{f}] \end{aligned}

$\begin{aligned} E[(f - \hat f)^2] & = E[(f + E[\hat f] - E[\hat f] - \hat f)^2] \\ & = E \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = Bias^2[\hat f] + Var[\hat f] \end{aligned}$

Положить его вместе

E [(Y - \hat{f})^{2}] = σ_{ϵ}^{2} + B i a s^{2} [\hat{f}] + V a r [\hat{f}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Некоторые комментарии о том, почему $E[\hat f Y] = f E[\hat f]$

Взято от Алекоса Пападопулоса здесь

Напомним, что - это предсказатель, который мы построили на основе точек данных чтобы мы могли написать чтобы запомнить это. $\hat f$ $m$ $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$ $\hat f = \hat f_m$

С другой стороны, - это прогноз, который мы делаем для новой точки данных , используя модель, построенную на точках данных выше. Таким образом, средняя квадратическая ошибка может быть записана как $Y$ $(x^{(m+1)},y^{(m+1)})$ $m$

E [{\hat{f}}_{m} (x^{(m + 1)}) - y^{(m + 1)}]^{2}

$E[\hat f_m(x^{(m+1)}) - y^{(m+1)}]^2$

Расширяя уравнение из предыдущего раздела

E [{\hat{f}}_{m} Y] = E [{\hat{f}}_{m} (f + ϵ)] = E [{\hat{f}}_{m} f + {\hat{f}}_{m} ϵ] = E [{\hat{f}}_{m} f] + E [{\hat{f}}_{m} ϵ]

$E[\hat f_m Y]=E[\hat f_m (f+ \epsilon)]=E[\hat f_m f+\hat f_m \epsilon]=E[\hat f_m f]+E[\hat f_m \epsilon]$

Последняя часть уравнения может рассматриваться как

E [{\hat{f}}_{m} (x^{(m + 1)}) \cdot ϵ^{(m + 1)}] = 0

$E[\hat f_m(x^{(m+1)}) \cdot \epsilon^{(m+1)}] = 0$

Поскольку мы делаем следующие предположения о точке : $x^{(m+1)}$

Он не использовался при создании $\hat f_m$
Он не зависит от всех других наблюдений $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$
Он не зависит от $\epsilon^{(m+1)}$

Другие источники с полными деривациями

— Ксавье Бурре Сикотт
источник

Почему ? Я не думаю и независимы, так , по существу , строится с помощью .

E [\hat{f} Y] = f E [\hat{f}]

$E[\hat{f}Y]=f E[\hat{f}]$

Y

$Y$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

Y

$Y$

— Фелипе Перес

Но вопрос по сути тот же, почему ? Случайность происходит от ошибки поэтому я не понимаю, почему и будут независимыми, а значит, .

E [\hat{f} ϵ] = 0

$E[\hat{f}\epsilon]=0$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

E (\hat{f} ϵ) = 0

$\mathbb{E}(\hat{f}\epsilon)=0$

— Фелипе Перес

Из вашей оценки кажется, что выборка по сравнению с выборкой имеет решающее значение. Это так? Если мы будем работать только в выборке, а затем, увидим, как остаточный компромисс дисперсии смещения исчезнет?

ϵ

$\epsilon$

— Марковиц

@ FelipePérez Насколько я понимаю, случайность происходит от разделения теста на поезд (точки которого оказались в обучающем наборе и дали в качестве обученного предиктора). Другими словами, дисперсия происходит от всех возможных подмножеств данного фиксированного набора данных, которые мы можем принять в качестве обучающего набора. Поскольку набор данных является фиксированным, случайности, получаемой от и поэтому и независимы.

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

— Альберто Сантини

Понимание происхождения компромисса смещения дисперсии

Еще несколько шагов разложения Bias - Variance

Некоторые комментарии о том, почемуE[f^Y]=fE[f^]E[f^Y]=fE[f^]E[\hat f Y] = f E[\hat f]

Другие источники с полными деривациями

Некоторые комментарии о том, почему $E[\hat f Y] = f E[\hat f]$