Вывод условных распределений многомерного нормального распределения

114

У нас есть многомерный нормальный вектор ${\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma)$ . Попробуйте разделить $\boldsymbol\mu$ и ${\boldsymbol Y}$ на

μ = [\begin{matrix} μ_{1} \\ μ_{2} \end{matrix}]

$\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix}$

Y = [\begin{matrix} y_{1} \\ y_{2} \end{matrix}]

${\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix}$

с похожим разделением $\Sigma$ на

[\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}]

$\begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix}$ Тогда,

(y_{1} | y_{2} = a)

$({\boldsymbol y}_1|{\boldsymbol y}_2={\boldsymbol a})$ , условное распределение первого раздела по второму, равно

N (\bar{μ}, \bar{Σ})

$\mathcal{N}(\overline{\boldsymbol\mu},\overline{\Sigma})$ , со средним

\bar{μ} = μ_{1} + Σ_{12} {Σ_{22}}^{- 1} (a - μ_{2})

$\overline{\boldsymbol\mu}=\boldsymbol\mu_1+\Sigma_{12}{\Sigma_{22}}^{-1}({\boldsymbol a}-\boldsymbol\mu_2)$ и ковариационной матрицей

\bar{Σ} = Σ_{11} - Σ_{12} {Σ_{22}}^{- 1} Σ_{21}

$\overline{\Sigma}=\Sigma_{11}-\Sigma_{12}{\Sigma_{22}}^{-1}\Sigma_{21}$

На самом деле эти результаты также представлены в Википедии, но я понятия не имею, как получается $\overline{\boldsymbol\mu}$ и $\overline{\Sigma}$ . Эти результаты имеют решающее значение, поскольку они являются важной статистической формулой для получения фильтров Калмана . Кто-нибудь предоставит мне шаги по выводу $\overline{\boldsymbol\mu}$ и $\overline{\Sigma}$ ? Большое спасибо!

normal-distribution conditional-probability

— Летающая свинья
источник

Идея состоит в том, чтобы использовать определение условной плотности . Вы знаете, что соединение является двумерной нормалью и что маргинальный является нормалью, тогда вам просто нужно заменить значения и выполнить неприятную алгебру. Эти заметки могут быть полезны. Вот полное доказательство.

f (y_{1} | y_{2} = a) = \frac{f_{Y_{1}, Y_{2}} (y_{1}, a)}{f_{Y_{2}} (a)}

$f(y_1\vert y_2=a)=\dfrac{f_{Y_1,Y_2}(y_1,a)}{f_{Y_2}(a)}$

f_{Y_{1}, Y_{2}}

$f_{Y_1,Y_2}$

f_{Y_{2}}

$f_{Y_2}$

Ваша вторая ссылка отвечает на вопрос (+1). Почему бы не поставить его в качестве ответа @Procrastinator?

— gui11aume

Я не осознавал этого, но, думаю, я неявно использовал это уравнение в условном PCA. Условный PCA требует преобразования , которое эффективно вычисляет условную ковариационную матрицу при некотором выборе A.

(I - A^{'} {(A A^{'})}^{- 1} A) Σ

$\left(I-A'\left(AA'\right)^{-1}A\right)\Sigma$

— Джон

@Procrastinator - ваш подход на самом деле требует знания идентификатора матрицы Вудбери и знания блочной инверсии матрицы. Это приводит к излишне сложной матричной алгебре.

— вероятностная

@probabilityislogic На самом деле результат подтверждается приведенной мною ссылкой. Но это респектабельно, если вы найдете это более сложным, чем другие методы. Кроме того, я не пытался предложить оптимальное решение в своем комментарии . Кроме того, мой комментарий был предшествен ответу Макроса (за который я проголосовал, как вы можете видеть).

Ответы:

111

Вы можете доказать это, явно рассчитав условную плотность методом грубой силы, как в ссылке Прокрастинатора (+1) в комментариях. Но есть также теорема, которая говорит, что все условные распределения многомерного нормального распределения являются нормальными. Поэтому остается только вычислить средний вектор и ковариационную матрицу. Я помню, что мы вывели это на уроке временных рядов в колледже, умно определив третью переменную и используя ее свойства, чтобы получить результат проще, чем решение методом грубой силы в ссылке (если вы знакомы с матричной алгеброй). Я ухожу из памяти, но это было что-то вроде этого:

Пусть будет первым разделом, а - вторым. Теперь определите где , Теперь мы можем написать ${\bf x}_{1}$ ${\bf x}_2$ ${\bf z} = {\bf x}_1 + {\bf A} {\bf x}_2$ ${\bf A} = -\Sigma_{12} \Sigma^{-1}_{22}$

\begin{aligned} c o v (z, x_{2}) & = c o v (x_{1}, x_{2}) + c o v (A x_{2}, x_{2}) \\ = Σ_{12} + A v a r (x_{2}) \\ = Σ_{12} - Σ_{12} Σ_{22}^{- 1} Σ_{22} \\ = 0 \end{aligned}

$\begin{align*} {\rm cov}({\bf z}, {\bf x}_2) &= {\rm cov}( {\bf x}_{1}, {\bf x}_2 ) + {\rm cov}({\bf A}{\bf x}_2, {\bf x}_2) \\ &= \Sigma_{12} + {\bf A} {\rm var}({\bf x}_2) \\ &= \Sigma_{12} - \Sigma_{12} \Sigma^{-1}_{22} \Sigma_{22} \\ &= 0 \end{align*}$

Следовательно, и не коррелированы и, поскольку они вместе нормальны, они независимы . Теперь ясно, что , поэтому следует, что ${\bf z}$ ${\bf x}_2$ $E({\bf z}) = {\boldsymbol \mu}_1 + {\bf A} {\boldsymbol \mu}_2$

\begin{aligned} E (x_{1} | x_{2}) & = E (z - A x_{2} | x_{2}) \\ = E (z | x_{2}) - E (A x_{2} | x_{2}) \\ = E (z) - A x_{2} \\ = μ_{1} + A (μ_{2} - x_{2}) \\ = μ_{1} + Σ_{12} Σ_{22}^{- 1} (x_{2} - μ_{2}) \end{aligned}

$\begin{align*} E({\bf x}_1 | {\bf x}_2) &= E( {\bf z} - {\bf A} {\bf x}_2 | {\bf x}_2) \\ & = E({\bf z}|{\bf x}_2) - E({\bf A}{\bf x}_2|{\bf x}_2) \\ & = E({\bf z}) - {\bf A}{\bf x}_2 \\ & = {\boldsymbol \mu}_1 + {\bf A} ({\boldsymbol \mu}_2 - {\bf x}_2) \\ & = {\boldsymbol \mu}_1 + \Sigma_{12} \Sigma^{-1}_{22} ({\bf x}_2- {\boldsymbol \mu}_2) \end{align*}$

что доказывает первую часть. Для ковариационной матрицы обратите внимание, что

\begin{aligned} v a r (x_{1} | x_{2}) & = v a r (z - A x_{2} | x_{2}) \\ = v a r (z | x_{2}) + v a r (A x_{2} | x_{2}) - A c o v (z, - x_{2}) - c o v (z, - x_{2}) A^{'} \\ = v a r (z | x_{2}) \\ = v a r (z) \end{aligned}

$\begin{align*} {\rm var}({\bf x}_1|{\bf x}_2) &= {\rm var}({\bf z} - {\bf A} {\bf x}_2 | {\bf x}_2) \\ &= {\rm var}({\bf z}|{\bf x}_2) + {\rm var}({\bf A} {\bf x}_2 | {\bf x}_2) - {\bf A}{\rm cov}({\bf z}, -{\bf x}_2) - {\rm cov}({\bf z}, -{\bf x}_2) {\bf A}' \\ &= {\rm var}({\bf z}|{\bf x}_2) \\ &= {\rm var}({\bf z}) \end{align*}$

Теперь мы почти закончили:

\begin{aligned} v a r (x_{1} | x_{2}) = v a r (z) & = v a r (x_{1} + A x_{2}) \\ = v a r (x_{1}) + A v a r (x_{2}) A^{'} + A c o v (x_{1}, x_{2}) + c o v (x_{2}, x_{1}) A^{'} \\ = Σ_{11} + Σ_{12} Σ_{22}^{- 1} Σ_{22} Σ_{22}^{- 1} Σ_{21} - 2 Σ_{12} Σ_{22}^{- 1} Σ_{21} \\ = Σ_{11} + Σ_{12} Σ_{22}^{- 1} Σ_{21} - 2 Σ_{12} Σ_{22}^{- 1} Σ_{21} \\ = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21} \end{aligned}

$\begin{align*} {\rm var}({\bf x}_1|{\bf x}_2) = {\rm var}( {\bf z} ) &= {\rm var}( {\bf x}_1 + {\bf A} {\bf x}_2 ) \\ &= {\rm var}( {\bf x}_1 ) + {\bf A} {\rm var}( {\bf x}_2 ) {\bf A}' + {\bf A} {\rm cov}({\bf x}_1,{\bf x}_2) + {\rm cov}({\bf x}_2,{\bf x}_1) {\bf A}' \\ &= \Sigma_{11} +\Sigma_{12} \Sigma^{-1}_{22} \Sigma_{22}\Sigma^{-1}_{22}\Sigma_{21} - 2 \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \\ &= \Sigma_{11} +\Sigma_{12} \Sigma^{-1}_{22}\Sigma_{21} - 2 \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \\ &= \Sigma_{11} -\Sigma_{12} \Sigma^{-1}_{22}\Sigma_{21} \end{align*}$

что доказывает вторую часть.

Примечание. Для тех, кто не очень знаком с используемой здесь алгеброй матриц, это отличный ресурс .

Изменить: одно свойство, используемое здесь, это не в поваренной книге матрицы (хороший улов @FlyingPig) это свойство 6 на странице википедии о ковариационных матрицах: это для двух случайных векторов , Конечно, для скаляров но для векторов они различны, поскольку матрицы расположены по-разному. $\bf x, y$

v a r (x + y) = v a r (x) + v a r (y) + c o v (x, y) + c o v (y, x)

${\rm var}({\bf x}+{\bf y}) = {\rm var}({\bf x})+{\rm var}({\bf y}) + {\rm cov}({\bf x},{\bf y}) + {\rm cov}({\bf y},{\bf x})$

c o v (X, Y) = c o v (Y, X)

${\rm cov}(X,Y)={\rm cov}(Y,X)$

— макрос
источник

Спасибо за этот блестящий метод! Есть одна матричная алгебра, которая мне не кажется знакомой, где я могу найти формулу для открытия ? Я не нашел его по отправленной вами ссылке.

v a r (x_{1} + A x_{2})

$var(x_1+Ax_2)$

— Летающая свинья

@ Летучая свинья, пожалуйста. Я полагаю, что это результат уравнений сочетании с дополнительным свойством дисперсии суммы случайных векторов, не записанных в Matrix Cookbook - я добавил этот факт в свой ответ - спасибо, что поймал это!

(291), (292)

$(291),(292)$

— Макро

Это очень хороший ответ (+1), но его можно улучшить с точки зрения упорядочения подхода. Мы начнем с того, что хотим получить линейную комбинацию всего вектора, которая является независимой / некоррелированной с . Это потому, что мы можем использовать тот факт, что что означает и . Это, в свою очередь, приводит к выражениям для и . Это означает , что мы должны принять . Теперь нам требуется . Если обратим, мы имеем

z = C x = C_{1} x_{1} + C_{2} x_{2}

$z=Cx=C_1x_1+C_2x_2$

x_{2}

$x_2$

p (z | x_{2}) = p (z)

$p(z|x_2)=p(z)$

v a r (z | x_{2}) = v a r (z)

$var(z|x_2)=var(z)$

E (z | x_{2}) = E (z)

$E(z|x_2)=E(z)$

v a r (C_{1} x_{1} | x_{2})

$var(C_1x_1|x_2)$

E (C_{1} x_{1} | x_{2})

$E(C_1x_1|x_2)$

C_{1} = I

$C_1=I$

c o v (z, x_{2}) = Σ_{12} + C_{2} Σ_{22} = 0

$cov(z,x_2)=\Sigma_{12}+C_2\Sigma_{22}=0$

Σ_{22}

$\Sigma_{22}$

C_{2} = - Σ_{12} Σ_{22}^{- 1}

$C_2=-\Sigma_{12}\Sigma_{22}^{-1}$ .

— вероятностная

@jakeoung - это не доказывает, что , а устанавливает его на это значение, чтобы мы получили выражение, содержащее переменные, о которых мы хотим знать.

C_{1} = I

$C_1=I$

— вероятностная

@jakeoung Я тоже не совсем понимаю это утверждение. Я так понимаю: если , то . Таким образом, значение представляет собой произвольный масштаб. Поэтому мы устанавливаем для простоты.

c o v (z, x_{2}) = 0

$cov(z, x_2)=0$

c o v (C_{1}^{- 1} z, x_{2}) = C_{1}^{- 1} c o v (z, x_{2}) = 0

$cov(C_1^{-1} z, x_2) = C_1^{-1} cov( z, x_2)=0$

C_{1}

$C_1$

C_{1} = I

$C_1=I$

— Кен Т

Ответ Макроса великолепен, но здесь есть еще более простой способ, который не требует использования какой-либо внешней теоремы, утверждающей условное распределение. Это включает в себя запись расстояния Маханалобиса в форме, которая разделяет переменную аргумента для условного утверждения, и затем соответственно разложение на нормальную плотность.

Переписывание расстояния Маханалобиса для условного вектора: этот вывод использует формулу обращения матрицы, в которой используется дополнение Шура . Сначала мы используем блочную формулу обращения, чтобы написать матрицу обратной дисперсии как: $\boldsymbol{\Sigma}_\text{S} = \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}$

\begin{aligned} Σ^{- 1} = {[\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}]}^{- 1} = [\begin{matrix} Σ_{11}^{*} & Σ_{12}^{*} \\ Σ_{21}^{*} & Σ_{22}^{*} \end{matrix}], \end{aligned}

$\begin{equation} \begin{aligned} \boldsymbol{\Sigma}^{-1} = \begin{bmatrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \\ \end{bmatrix}^{-1} = \begin{bmatrix} \boldsymbol{\Sigma}_{11}^* & \boldsymbol{\Sigma}_{12}^* \\ \boldsymbol{\Sigma}_{21}^* & \boldsymbol{\Sigma}_{22}^* \\ \end{bmatrix}, \end{aligned} \end{equation}$

где:

\begin{aligned} \begin{matrix} Σ_{11}^{*} = Σ_{S}^{- 1} & Σ_{12}^{*} = - Σ_{S}^{- 1} Σ_{12} Σ_{22}^{- 1}, \\ Σ_{21}^{*} = - Σ_{22}^{- 1} Σ_{12} Σ_{S}^{- 1} & Σ_{22}^{*} = Σ_{22}^{- 1} Σ_{12} Σ_{S}^{- 1} Σ_{12} Σ_{22}^{- 1} . \end{matrix} \end{aligned}

$\begin{equation} \begin{aligned} \begin{matrix} \boldsymbol{\Sigma}_{11}^* = \boldsymbol{\Sigma}_\text{S}^{-1} \text{ } \quad \quad \quad \quad & & & & & \boldsymbol{\Sigma}_{12}^* = -\boldsymbol{\Sigma}_\text{S}^{-1} \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}, \quad \quad \quad \\[6pt] \boldsymbol{\Sigma}_{21}^* = - \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_\text{S}^{-1} & & & & & \boldsymbol{\Sigma}_{22}^* = \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_\text{S}^{-1} \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}. \text{ } \\[6pt] \end{matrix} \end{aligned} \end{equation}$

Используя эту формулу, мы можем теперь написать расстояние Маханалобиса как:

\begin{aligned} (y - μ)^{T} Σ^{- 1} (y - μ) & = {[\begin{matrix} y_{1} - μ_{1} \\ y_{2} - μ_{2} \end{matrix}]}^{T} [\begin{matrix} Σ_{11}^{*} & Σ_{12}^{*} \\ Σ_{21}^{*} & Σ_{22}^{*} \end{matrix}] [\begin{matrix} y_{1} - μ_{1} \\ y_{2} - μ_{2} \end{matrix}] \\ = (y_{1} - μ_{1})^{T} Σ_{11}^{*} (y_{1} - μ_{1}) + (y_{1} - μ_{1})^{T} Σ_{12}^{*} (y_{2} - μ_{2}) \\ + (y_{2} - μ_{2})^{T} Σ_{21}^{*} (y_{1} - μ_{1}) + (y_{2} - μ_{2})^{T} Σ_{22}^{*} (y_{2} - μ_{2}) \\ = (y_{1} - (μ_{1} + Σ_{12} Σ_{22}^{- 1} (y_{2} - μ_{2})))^{T} Σ_{S}^{- 1} (y_{1} - (μ_{1} + Σ_{12} Σ_{22}^{- 1} (y_{2} - μ_{2}))) \\ = (y_{1} - μ_{*})^{T} Σ_{*}^{- 1} (y_{1} - μ_{*}), \end{aligned}

$\begin{equation} \begin{aligned} (\boldsymbol{y} - \boldsymbol{\mu})^\text{T} \boldsymbol{\Sigma}^{-1} (\boldsymbol{y} - \boldsymbol{\mu}) &= \begin{bmatrix} \boldsymbol{y}_1 - \boldsymbol{\mu}_1 \\ \boldsymbol{y}_2 - \boldsymbol{\mu}_2 \end{bmatrix}^\text{T} \begin{bmatrix} \boldsymbol{\Sigma}_{11}^* & \boldsymbol{\Sigma}_{12}^* \\ \boldsymbol{\Sigma}_{21}^* & \boldsymbol{\Sigma}_{22}^* \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{y}_1 - \boldsymbol{\mu}_1 \\ \boldsymbol{y}_2 - \boldsymbol{\mu}_2 \end{bmatrix} \\[6pt] &= \quad (\boldsymbol{y}_1 - \boldsymbol{\mu}_1)^\text{T} \boldsymbol{\Sigma}_{11}^* (\boldsymbol{y}_1 - \boldsymbol{\mu}_1) + (\boldsymbol{y}_1 - \boldsymbol{\mu}_1)^\text{T} \boldsymbol{\Sigma}_{12}^* (\boldsymbol{y}_2 - \boldsymbol{\mu}_2) \\[6pt] &\quad + (\boldsymbol{y}_2 - \boldsymbol{\mu}_2)^\text{T} \boldsymbol{\Sigma}_{21}^* (\boldsymbol{y}_1 - \boldsymbol{\mu}_1) + (\boldsymbol{y}_2 - \boldsymbol{\mu}_2)^\text{T} \boldsymbol{\Sigma}_{22}^* (\boldsymbol{y}_2 - \boldsymbol{\mu}_2) \\[6pt] &= (\boldsymbol{y}_1 - (\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2)))^\text{T} \boldsymbol{\Sigma}_\text{S}^{-1} (\boldsymbol{y}_1 - (\boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2))) \\[6pt] &= (\boldsymbol{y}_1 - \boldsymbol{\mu}_*)^\text{T} \boldsymbol{\Sigma}_*^{-1} (\boldsymbol{y}_1 - \boldsymbol{\mu}_*), \\[6pt] \end{aligned} \end{equation}$

где:

\begin{aligned} μ_{*} & \equiv μ_{1} + Σ_{12} Σ_{22}^{- 1} (y_{2} - μ_{2}), \\ Σ_{*} & \equiv Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21} . \end{aligned}

$\begin{equation} \begin{aligned} \boldsymbol{\mu}_* &\equiv \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2), \\[8pt] \boldsymbol{\Sigma}_* &\equiv \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}. \\[6pt] \end{aligned} \end{equation}$

Обратите внимание, что этот результат является общим результатом, который не предполагает нормальности случайных векторов. Это дает полезный способ переформирования расстояния Маханалобиса так, чтобы оно представляло собой квадратичную форму по отношению только к одному из векторов в разложении (с другим, поглощенным в средний вектор и матрицу дисперсии).

Вывод условного распределения: теперь, когда у нас есть вышеуказанная форма для расстояния Маханалобиса, все остальное легко. У нас есть:

\begin{aligned} p (y_{1} | y_{2}, μ, Σ) & \overset{y_{1}}{\propto} p (y_{1}, y_{2} | μ, Σ) \\ = N (y | μ, Σ) \\ \overset{y_{1}}{\propto} \exp (- \frac{1}{2} (y - μ)^{T} Σ^{- 1} (y - μ)) \\ = \exp (- \frac{1}{2} (y_{1} - μ_{*})^{T} Σ_{*}^{- 1} (y_{1} - μ_{*})) \\ \overset{y_{1}}{\propto} N (y_{1} | μ_{*}, Σ_{*}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\boldsymbol{y}_1 | \boldsymbol{y}_2, \boldsymbol{\mu}, \boldsymbol{\Sigma}) &\overset{\boldsymbol{y}_1}{\propto} p(\boldsymbol{y}_1 , \boldsymbol{y}_2 | \boldsymbol{\mu}, \boldsymbol{\Sigma}) \\[12pt] &= \text{N}(\boldsymbol{y} | \boldsymbol{\mu}, \boldsymbol{\Sigma}) \\[10pt] &\overset{\boldsymbol{y}_1}{\propto} \exp \Big( - \frac{1}{2} (\boldsymbol{y} - \boldsymbol{\mu})^\text{T} \boldsymbol{\Sigma}^{-1} (\boldsymbol{y} - \boldsymbol{\mu}) \Big) \\[6pt] &= \exp \Big( - \frac{1}{2} (\boldsymbol{y}_1 - \boldsymbol{\mu}_*)^\text{T} \boldsymbol{\Sigma}_*^{-1} (\boldsymbol{y}_1 - \boldsymbol{\mu}_*) \Big) \\[6pt] &\overset{\boldsymbol{y}_1}{\propto}\text{N}(\boldsymbol{y}_1 | \boldsymbol{\mu}_*, \boldsymbol{\Sigma}_*). \\[6pt] \end{aligned} \end{equation}$

Это устанавливает, что условное распределение также является многомерным нормальным с указанным условным вектором среднего значения и матрицей условной дисперсии.

— Бен
источник