Задача с доказательством условного ожидания как лучшего предиктора

19

У меня есть проблема с доказательством

$E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

что, скорее всего, выявит более глубокое непонимание ожиданий и условных ожиданий.

Доказательство, которое я знаю, выглядит следующим образом (другую версию этого доказательства можно найти здесь )

= = = arg min g (X) E [(Y - g (x)) 2] arg min g (X) E [(Y - E (Y | X) + E (Y | X) - g (X)) 2] arg min g (x) E [(Y - E (Y | X)) 2 + 2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X)) 2] arg min g (x) E [2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X)) 2]

$\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ \end{align*}$

Затем доказательство обычно продолжается аргументом, показывающим, что $2 E\Big[ \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big)\Big] = 0$ и, следовательно,

arg min g (x) E [(Y - g (x)) 2] = arg min g (x) E [(E (Y | X) - g (X)) 2]

$\begin{align*} \arg \min_{g(x)} E\Big[\big(Y - g(x)\big)^2\Big] = \arg \min_{g(x)} E \Big[\big(E(Y|X) - g(X)\big)^2\Big] \end{align*}$

который можно увидеть минимизированным, когда $g(X) = E(Y|X)$ .

Мои загадки по поводу доказательства следующие:

Рассмотреть возможность

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]$ .

Мне кажется, что независимо от любого аргумента, показывающего, что первый член всегда равен нулю, можно видеть, что установка $g(X) = E(Y|X)$ минимизирует выражение, поскольку оно подразумевает $\big(E(Y|X) - g(X)\big) =0$ и, следовательно,

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big] = E( 0 + 0)$ = 0.

Но если это так, то можно повторить доказательство, заменив любой другой функцией , скажем, , и прийти к выводу, что именно минимизирует выражение. Так что должно быть что-то, что я неправильно понимаю (правильно?). $E(Y|X)$ $X$ $h(X)$ $h(X)$

У меня есть некоторые сомнения относительно значения в постановке задачи. Как следует понимать обозначения? Значит ли это $E[(Y−g(X))^2]$

$E_X[(Y−g(X))^2]$ , или ? $E_Y[(Y−g(X))^2]$ $E_{XY}[(Y−g(X))^2]$

— Мартин Ван дер Линден
источник

11

(Это адаптация Granger & Newbold (1986) «Прогнозирование экономических временных рядов»).

По построению, ваша функция затрат ошибка будет . Это включает в себя критическое предположение (что функция стоимости ошибки симметрична относительно нуля) - другая функция стоимости ошибки не обязательно будет иметь условное ожидаемое значение в качестве своего ожидаемого значения. Вы не можете минимизировать функцию стоимости ошибки, поскольку она содержит неизвестные количества. Таким образом, вы решили минимизировать его ожидаемое значение. Тогда ваша целевая функция становится $\left[Y-g(X)\right]^2$ $\arg \min$

E [Y - g (X)] 2 = \int \infty - \infty [y - g (X)] 2 f Y | X (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}\left[y-g(X)\right]^2f_{Y|X}(y|x)dy$

который, я считаю, отвечает и на ваш второй вопрос. Это интуитивно , что ожидаемое значение будет иметь обусловливающие , так как мы пытаемся оценить / прогноз на основе . Разложить квадрат для получения $Y$ $X$ $Y$ $X$

E [Y - g (X)] 2 = \int \infty - \infty y 2 f Y | X (y | x) d y - 2 g (X) \int \infty - \infty y f Y | X (y | x) d y + [g (X)] 2 \int \infty - \infty f Y | X (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}y^2f_{Y|X}(y|x)dy -2g(X)\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy \\+ \Big[g(X)\Big]^2\int_{-\infty}^{\infty}f_{Y|X}(y|x)dy$

Первый член не содержит поэтому он не влияет на минимизацию, и его можно игнорировать. Интеграл во втором члене равен условному ожидаемому значению данного , а интеграл в последнем члене равен единице. Так $g(X)$ $Y$ $X$

arg min g (x) E [Y - g (X)] 2 = arg min g (x) {- 2 g (X) E (Y ∣ X) + [g (X)] 2}

$\arg \min_{g(x)} E\left[Y-g(X)\right]^2 = \arg \min_{g(x)} \Big\{ -2g(X)E(Y\mid X) + \Big[g(X)\Big]^2 \Big\}$

Первая производная по равна приводит к условию первого порядка для минимизации $g(X)$ $-2E(Y\mid X) + 2g(X)$ $g(X) = E(Y\mid X)$ а вторая производная равна что достаточно для минимума. $2>0$

ДОБАВЛЕНИЕ: логика подхода «сложение и вычитание».

ОП озадачен подходом, изложенным в вопросе, потому что он кажется тавтологическим. Это не так, потому что при использовании тактики сложения и вычитания получается конкретная часть целевой функции обнуляется для произвольного выбора добавляемого и вычитаемого термина, она НЕ выравнивает функцию значения , а именно значение цели Функция оценивается на минимизаторе кандидата.

Для выбора имеем функцию значения Для произвольного выбора $g(X) = E(Y \mid X)$ $V\left(E(Y\mid X)\right) = E\Big[ (Y-E(Y \mid X))^2\mid X\Big]$ $g(X) = h(X)$ имеем функцию значения . $V\left(h(X)\right) = E\Big[ (Y-h(X))^2\mid X\Big]$

Я утверждаю что

V (E (Y ∣ X)) \leq V (h (X))

$V\left(E(Y\mid X)\right) \le V\left(h(X)\right)$

\Rightarrow E (Y 2 ∣ X) - 2 E [(Y E (Y ∣ X)) ∣ X] + E [(E (Y ∣ X)) 2 ∣ X] \leq E (Y 2 ∣ X) - 2 E [(Y h (X)) ∣ X] + E [(h (X)) 2 ∣ X]

$\Rightarrow E(Y^2\mid X) -2E\Big [(YE(Y \mid X))\mid X\Big] + E\Big [(E(Y \mid X))^2\mid X\Big] \\\le E(Y^2\mid X) -2E\Big [(Yh(X))\mid X\Big] + E\Big [(h(X))^2\mid X\Big]$

Первый срок LHS и RHS отменяют. Также обратите внимание , что внешнее ожидание условно на . По свойствам условных ожиданий мы получаем $X$

. . . \Rightarrow - 2 E (Y ∣ X) \cdot E (Y ∣ X) + [E (Y ∣ X)] 2 \leq - 2 E (Y ∣ X) h (X) + [h (X)] 2

$...\Rightarrow -2E(Y \mid X)\cdot E\Big (Y\mid X\Big) + \Big [E(Y \mid X)\Big]^2 \le -2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 \leq [E (Y ∣ X)] 2 - 2 E (Y ∣ X) h (X) + [h (X)] 2

$\Rightarrow 0 \le \Big [E(Y \mid X)\Big]^2-2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 \leq [E (Y ∣ X) - h (x)] 2

$\Rightarrow 0 \le \Big [E(Y \mid X) - h(x)\Big]^2$ которое выполняется со строгим неравенством, если . Таким образом, является глобальным и уникальным минимизатором.

h(x)≠E(Y∣X) $h(x) \neq E(Y \mid X)$

E(Y∣X) $E(Y \mid X)$

Но это также говорит о том, что подход «сложение и вычитание» здесь не самый убедительный способ доказательства.

— Алекос Пападопулос
источник

Спасибо за ответ. Это помогает уточнить мой второй вопрос. Как я пытался передать в заголовке вопроса, моя главная проблема (первая в посте) была больше о механизме доказательства. Мое главное беспокойство связано с моим пониманием доказательства, которое я представил в этом вопросе. Как я объяснил, мое понимание доказательства приводит меня к явно проблематичному утверждению. Поэтому я хотел бы понять, где моя ошибка, поскольку она может выявить некоторые более глубокие недопонимания в отношении понятий ожидания и условного ожидания. Есть мысли по этому поводу?

— Мартин Ван дер Линден

1

Я добавил некоторые пояснения к подходу «сложение и вычитание» для доказательства.

— Алекос Пападопулос

Мне потребовалось некоторое время, чтобы понять это, но я наконец-то понял свою основную ошибку: достаточно верно когда , но это ни в коем случае не означает, что минимизирует выражение , Нет причины, по которой выражение в скобках не могло быть ниже нуля. Из-за знака минус перед можно найти такой , что .

E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))2]=0 $E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] = 0$

g(X)=h(X) $g(X) = h(X)$

h(X) $h(X)$

(Y−h(X))(h(X)−g(X)) $\big(Y - h(X) \big) \big(h(X) - g(X)\big)$

g(X) $g(X)$

E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))2]<0 $E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] < 0$

— Мартин Ван дер Линден,

1

Хммм ... знак минус в выражении, на которое вы ссылаетесь, является ошибкой - это должен быть знак плюс. Вы могли бы, конечно, затем изменить условия, чтобы снова получить знак минус ... это повредит полученной интуиции?

— Алекос Пападопулос

Спасибо, что не отставали от вопроса. Я отредактировал первоначальный пост, чтобы исправить эту ошибку. К счастью, я думаю, что это не повредит полученной интуиции. На самом деле это помогает мне понять еще одну ошибку: я предполагал, что знак минус был важен, чтобы гарантировать, что не обязательно является минимумом . Но я понимаю, что речь идет не только о знаке до 2. (Надеюсь), что мне действительно нужно было понять, так это то, что в общем (т.е. для произвольного ) не нужно минимизировать, когда (верно?).

0 $0$

E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))2] $E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))^2]$

h(X) $h(X)$

E[2(Y−h(X))(h(X)−g(X))] $E[2(Y−h(X))(h(X)−g(X))]$

g(X)=h(X) $g(X)=h(X)$

— Мартин Ван дер Линден,

5

Обратите внимание, что для подтверждения ответа вам нужно только показать, что

E [- 2 (Y - E (Y | X)) (E (Y | X) - g (X))] = 0

$E \Big[ -2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) \Big] = 0$

Что касается ожидания, вы принимаете его условно, в противном случае срок

arg min g (X) E [(Y - g (X)) 2]

$\arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

Не имеет смысла, так как является случайной величиной, если - это а не . Покажите, что вы действительно должны написать или чтобы прояснить это. Теперь, учитывая это уточнение, термин является константой и может быть выведен за пределы ожидания, и вы получите: $g(X)$ $E$ $E_{XY}$ $E_{Y|X}$ $E\Big[\big(Y - g(X)\big)^2|X\Big]$ $E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]$ $\big(E(Y|X) - g(X)\big)$

- 2 (E (Y | X) - g (X)) E [(Y - E (Y | X)) | X] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E [E (Y | X) | X]] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E (Y | X)] = 0

Следовательно, вы можете написать целевую функцию как:

E Y | X [(Y - g (X)) 2] = E Y | X [(Y - E Y | X (Y | X)) 2] + (E Y | X (Y | X) - g (X)) 2

$E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]=E_{Y|X}\Big[\big(Y - E_{Y|X}(Y|X)\big)^2\Big]+\big(E_{Y|X}(Y|X) - g(X)\big)^2$

Минимизатор очевиден отсюда. Обратите внимание, что если вы хотите усреднить по , то очень похожий аргумент можно использовать для показа: $X$

E X [(E (Y | X) - g (X)) 2] = E X [(E Y | X (Y | X) - E X [E Y | X (Y | X)]) 2] + (E X [E Y | X (Y | X)] - E X [g (X)]) 2

$E_{X}\Big[\big(E(Y|X) - g(X)\big)^2\Big]=E_{X}\Big[\big(E_{Y|X}(Y|X) - E_X\big[E_{Y|X}(Y|X)\big]\big)^2\Big]+\Big(E_{X}\big[E_{Y|X}(Y|X)\big] - E_X\big[g(X)\big]\Big)^2$

Это показывает, что если вы установите для каждого , то у вас также будет минимизатор этой функции. Так что в некотором смысле не имеет значения, является ли или . $g(X)=E_{Y|X}(Y|X)$ $X$ $E$ $E_{YX}$ $E_{Y|X}$

— probabilityislogic
источник

3

Есть математическая точка зрения, которая очень проста. У вас есть проблема проекции в гильбертовом пространстве, очень похожая на проекцию вектора из на подпространство. $\mathbb{R}^n$

Пусть обозначает основное вероятностное пространство. Чтобы задача имела смысл, рассмотрим случайные величины с конечными вторыми моментами, т. Е. Гильбертово пространство . Теперь проблема заключается в следующем: учитывая , найдите проекцию на подпространство , где является -подалгебра , порожденный . (Как и в случае конечного размера, минимизация -пространства к подпространству означает поиск проекции). Желаемая проекция $(\Omega, \mathcal{F}, \mu)$ $L^2(\Omega, \mathcal{F}, \mu)$ $X, Y \in L^2(\Omega, \mathcal{F}, \mu)$ $Y$ $L^2(\Omega, \mathcal{F}_X, \mu)$ $\mathcal{F}_X$ $\sigma$ $\mathcal{F}$ $X$ $L^2$ $E(X|Y)$ , по построению. (Это действительно характеризует , если проверять доказательство существования). $E(X|Y)$

— Майкл
источник

Это прекрасный ответ.

— JII

0

Что касается вашего последнего вопроса, ожидание может быть либо относительно (безусловная ошибка), либо относительно (условная ошибка при каждом значении ). К счастью, минимизация условной ошибки при каждом значении также минимизирует безусловную ошибку, так что это не принципиальное различие. $p(x,y)$ $p(y\mid x)$ $X = x$ $X = x$

— Улисс Брага-Нето
источник