Ожидаемая ошибка прогноза - вывод

Я изо всех сил пытаюсь понять вывод ожидаемой ошибки прогнозирования в соответствии с приведенным ниже (ESL), особенно в отношении выводов 2.11 и 2.12 (обусловливание, шаг к точечному минимуму). Любые указатели или ссылки высоко ценится.

Ниже я сообщаю отрывок из ESL pg. 18. Первые два уравнения, по порядку, уравнения 2.11 и 2.12.

Пусть $X \in \mathbb{R}^p$ обозначает вещественный случайный входной вектор, а $Y \in \mathbb{R}$ - вещественную случайную выходную переменную с совместным распределением $\text{Pr}(X,Y)$ . Будем искать функцию $f(X)$ для прогнозирования $Y$ заданных значений входного $X$ . Эта теория требует функции потерь $L(Y,f(X))$ для штрафования за ошибки в прогнозировании, и, безусловно, наиболее распространенной и удобной является возведение в квадрат ошибок : $L(Y,f(X))=(Y-f(X))^2$ . Это приводит нас к критерию выбора $f$ ,

\begin{aligned} EPE (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} Pr (d x, d y) \end{aligned}

$\begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split}$

ожидаемая (квадратичная) ошибка прогноза. Обуславливая $X$ , мы можем записать EPE как

EPE (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X)

$\text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X)$

и мы видим, что достаточно минимизировать EPE:

f (x) = {argmin}_{c} E_{Y | X} ([Y - c]^{2} | X)

$f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X)$

Решение

f (x) = E (Y | X = x)

$f(x) = \text{E}(Y|X=x)$

условное ожидание, также известное как функция регрессии .

regression prediction error

— user1885116
источник

Поменяв местами

в первом уравнении в статье Википедии о законе полного ожидания, мы получим эквивалентность (2.9) и (2.11). Прочитайте эту статью для доказательства. (2.12) является немедленным, при том понимании, что

следует выбирать для минимизации EPE.

X

$X$

Y

$Y$

f

$f$

— whuber

Примечание: это из элементов статистического обучения

— Жубарб,

Для тех, кто также читает эту книгу, ознакомьтесь с этими подробными заметками Weathermax и Epstein

— Dodgie

@Dodgie Эта ссылка умерла ((

— Мэтью Друри

@MatthewDrury К счастью, поиск в «Статистике Weathermax и Epstein» вернул ссылку в качестве самого первого результата;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…

— Доджи

Ответы:

\begin{aligned} E P E (f) & = \int [y - f (x)]^{2} P r (d x, d y) \\ = \int [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x) p (y | x) d x d y \\ = \int_{x} (\int_{y} [y - f (x)]^{2} p (y | x) d y) p (x) d x \\ = \int_{x} (E_{Y | X} ([Y - f (X)]^{2} | X = x)) p (x) d x \\ = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X = x) \end{aligned}

$\begin{align*} EPE(f) &= \int [y - f(x)]^2 Pr(dx, dy) \\ &= \int [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x)p(y|x)dxdy \\ &= \int_x\left( \int_y [y - f(x)]^2p(y|x)dy \right)p(x)dx \\ &= \int_x \left( E_{Y|X}([Y - f(X)]^2|X = x) \right) p(x)dx\\ &= E_{X}E_{Y|X}([Y - f(X)]^2| X = x) \end{align*}$

— user48002
источник

Я понимаю, что вы написали, но думаете ли вы, что если ОП был смущен выводом, показанным в вопросе, он / она поймет ваш ответ? конечно, я уже понял вывод, показанный в вопросе.

— Марк Л. Стоун

Я получил здесь от Google с тем же вопросом и на самом деле найти этот вывод именно то, что мне нужно.

— Точка с запятой и клейкая лента

@ MarkL.Stone - это может быть глупый вопрос, но не могли бы вы объяснить, что подразумевается под

и как он становится

? Спасибо большое

P r (d x, d y)

$Pr(dx,dy)$

p (x, y) d x d y

$p(x,y)dxdy$

— Ксавье Бурре Сикот

Под первым подразумевается последнее. Я думаю, что более распространенным является использование dP (x, y) или dF (x, y). В 1D вы часто будете видеть, что dF (x) означает f (x) dx, где f (x) - функция плотности вероятности, но запись также может учитывать дискретную функцию вероятности (в суммировании) или даже смесь непрерывная плотность и масса дискретной вероятности.

— Марк Л. Стоун

Wouldn't be more precise to say (last formula)

E_{X} (E_{Y | X} ([Y - f (X)]^{2} | X = x))

$E_{X}(E_{Y|X}([Y - f(X)]^2| X = x))$ ?

— D1X

The equation (2.11) is a consequence of the following little equality. For any two random variables $Z_1$ and $Z_2$ , and any function $g$

E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) = E_{Z_{2}} (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2}))

$E_{Z_1, Z_2} (g(Z_1, Z_2)) = E_{Z_2}(E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2))$

The notation $E_{Z_1, Z_2}$ is the expectation over the joint distribution. The notation $E_{Z_1 \mid Z_2}$ essentially says "integrate over the conditional distribution of $Z_1$ as if $Z_2$ was fixed".

It's easy to verify this in the case that $Z_1$ and $Z_2$ are discrete random variables by just unwinding the definitions involved

\begin{aligned} E_{Z_{2}} & (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2})) \\ = E_{Z_{2}} (\sum_{z_{1}} g (z_{1}, Z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2})) \\ = \sum_{z_{2}} (\sum_{z_{1}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2})) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2}) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1}, Z_{2} = z_{2}) \\ = E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) \end{aligned}

$\begin{align} E_{Z_2} & (E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) \\ &= E_{Z_2} \left( \sum_{z_1} g(z_1, Z_2) Pr(Z_1 = z_1 \mid Z_2 ) \right) \\ &= \sum_{z_2} \left( \sum_{z_1} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2 ) \right) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1, Z_2 = z_2 ) \\ &= E_{Z_1, Z_2} (g(Z_1, Z_2)) \end{align}$

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take $Z_1 = Y$ , $Z_2 = X$ , and $g(x, y) = (y - f(x))^2$ . Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

E_{X} E_{Y ∣ X} (Y - f (X))^{2}

$E_X E_{Y \mid X} (Y - f(X))^2$

where we are free to choose $f$ as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

\sum_{x} (\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)) P r (X = x)

$\sum_{x} \left( \sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x) \right) Pr(X = x)$

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose $f$ to minimize

\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)

$\sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x)$

individually for each discrete value of $x$ . This is exactly the content of what ESL is claiming, only with fancier notation.

— Matthew Drury
источник

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) $E(X) = E(E(X|Y)),\forall X,Y$

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

\begin{aligned} E (E (X | Y)) & = \int E (X | Y = y) f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) d x f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) f_{Y} (y) d x d y \\ = \int \int x f_{X Y} (x, y) d x d y \\ = \int x (\int f_{X Y} (x, y) d y) d x \\ = \int x f_{X} (x) d x = E (X) \end{aligned}

$\begin{align} E(E(X|Y)) &= \displaystyle\int E(X|Y=y) f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) dx f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) f_Y(y) dx dy \\ &= \int \int x f_{XY} (x,y) dx dy \\ &= \int x \left(\int f_{XY} (x,y) dy \right) dx \\ &= \int x f_X(x) dx = E(X) \end{align}$

Claim 2: $E(Y - f(X))^2 \geq E(Y - E(Y|X))^2, \forall f$

Proof:

\begin{aligned} E ((Y - f (X))^{2} | X) & = E (([Y - E (Y | X)] + [E (Y | X) - f (X)])^{2} | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 E ((Y - E (Y | X)) (E (Y | X) - f (X)) | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 (E (Y | X) - f (X)) E (Y - E (Y | X)) | X) \\ (since E (Y | X) - f (X) is constant given X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) ( use Claim 1) \\ \geq E ((Y - E (Y | X))^{2} | X) \end{aligned}

$\begin{align} E((Y - f(X))^2 | X) &= E( ([Y - E(Y|X)] + [E(Y|X) - f(X)])^2|X) \\ &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 E((Y - E(Y|X))(E(Y|X) - f(X))|X) \\ &=E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 (E(Y|X) - f(X)) E(Y - E(Y|X))|X) \\[5pt] &( \text{ since } E(Y|X) - f(X) \text{ is constant given } X) \\[5pt] &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) \text{ ( use Claim 1 }) \\ &\geq E((Y-E(Y|X))^2 |X) \end{align}$

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is $f(X) = E(Y|X)$

— thanhtang
источник