Я предполагаю, что вам удобно рассматривать прямоугольный треугольник как означающий, что E[Y∣X] и Y−E[Y∣X] являются некоррелированными случайными величинами. Для некоррелированных случайных величин A и B ,
var(A+B)=var(A)+var(B),(1)
и поэтому, если мы установим
A=Y−E[Y∣X] и
B=E[Y∣X] так что
A+B=Y , мы получаем, что
var(Y)=var(Y−E[Y∣X])+var(E[Y∣X]).(2)
Осталось показать, что
var(Y−E[Y∣X]) совпадает с
E[var(Y∣X)] поэтому мы можем переформулировать
(2) как
var(Y)=E[var(Y∣X)]+var(E[Y∣X])(3)
которая является формулой общей дисперсии.
Хорошо известно, что ожидаемое значение случайной величины равно E [ Y ] , то есть E [ E [ Y ∣ X ] ] = E [ Y ] . Итак, мы видим, что
E [ A ] = E [ Y - E [ Y ∣ X ] ] = E [ Y ] - E [ E [E[Y∣X]E[Y]E[E[Y∣X]]=E[Y]
из чего следует, что var ( A ) = E [ A 2 ] , то есть
var ( Y - E [ Y ∣ X ] ) = E [ ( Y - E [ Y ∣ X ] ) 2 ] .
Пусть C обозначает случайную величину ( Y - E [ Y
E[A]=E[Y−E[Y∣X]]=E[Y]−E[E[Y∣X]]=0,
var(A)=E[A2]var(Y−E[Y∣X])=E[(Y−E[Y∣X])2].(4)
C так что мы можем написать, что
var ( Y - E [ Y ∣ X ] ) = E [ C ] .
Но
E [ C ] = E [ E [ C ∣ X ] ], где
E [ C ∣ X ] = E [ ( Y - E [ Y ∣ X ] )(Y−E[Y∣X])2var(Y−E[Y∣X])=E[C].(5)
E[C]=E[E[C∣X]]
Теперь,
учитывая,что
X = x , условное распределение
Y имеет среднее значение
E [ Y ∣ X = x ]
и, следовательно,
E [ ( Y - E [ Y ∣ X = x ] ) 2 | X = x ] = var ( Y ∣ X = x ) .
Другими словами,
EE[C∣X]=E[(Y−E[Y∣X])2∣∣X].X=xYE[Y∣X=x]E[(Y−E[Y∣X=x])2∣∣X=x]=var(Y∣X=x).
так что
случайная величина E [ C ∣ X ] является просто
var ( Y ∣ X ) . Следовательно,
E [ C ] = E [ E [ C ∣ X ] ] = E [ var ( Y ∣ X ) ] ,E[C∣X=x]=var(Y∣X=x) E[C∣X]var(Y∣X)E[C]=E[E[C∣X]]=E[var(Y∣X)],(6)
который после подстановки в
показывает, что
var ( Y - E [ Y ∣ X ] ) = E [ var ( Y ∣ X ) ] .
Это делает правую часть
( 2 ) именно тем, что нам нужно, и поэтому мы доказали формулу полной дисперсии
( 3 ) .
(5)var(Y−E[Y∣X])=E[var(Y∣X)].
(2)(3)