Как взять производную многомерной нормальной плотности?

Скажем, у меня есть многомерная нормальная плотность . Я хочу получить вторую (частичную) производную по . Не уверен, как взять производную от матрицы. $N(\mu, \Sigma)$ $\mu$

Вики говорит, что нужно брать производный элемент за элементом внутри матрицы.

Я работаю с приближением Лапласа Режим .

\log P_{N} (θ) = \log P_{N} - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ}) .

$\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.$

\hat{θ} = μ

$\hat\theta=\mu$

Мне дали как это случилось?

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (\hat{θ} | y),

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),$

Что я сделал:

\log P (θ | y) = - \frac{k}{2} \log 2 π - \frac{1}{2} \log | Σ | - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ})

$\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta)$

Итак, я беру производную по , во-первых, это транспонирование, во-вторых, это матрица. Итак, я застрял. $\theta$

Примечание: если мой профессор сталкивается с этим, я имею в виду лекцию.

self-study normal-distribution matrix

— user1061210
источник

часть вашей проблемы может заключаться в том, что в вашем выражении для правдоподобия журнала есть ошибка - у вас естьгде вы должны иметь . Кроме того, вы случайно имели в виду ?

| Σ |

$|\Sigma|$

\log (| Σ |)

$\log(|\Sigma|)$

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y)

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$

— Макро

Да, вы правы, извините. Почему перед частной производной стоит отрицательный знак?

— user1061210

Я только что прояснил отрицательный знак, потому что вторая отрицательная производная - это наблюдаемая информация Фишера, которая обычно представляет интерес. Кроме того, по моим собственным подсчетам, я обнаружил, что

\frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y) = - Σ^{- 1}

$\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$

— Макрос

Итак, какова общая процедура для дискретной / непрерывной функции? Возьмите журнал, запись в виде разложения Тейлора, дифференцировать дважды WRT . Информация Фишера обычно не соответствует большинству других плотностей, верно?

θ

$\theta$

— user1061210

@user Как я уже говорил, вторая производная логарифма должна иметь неположительные собственные значения. Да, существуют связи между дисперсиями и отрицательными вторыми частными производными, как показывает теория оценки максимального правдоподобия, информация Фишера и т. Д. Макрос упоминал об этом ранее в этих комментариях.

— whuber

Ответы:

В главе 2 Матричной поваренной книги есть хороший обзор материала матричного исчисления, который дает много полезных тождеств, которые помогают решать проблемы, с которыми можно столкнуться при выполнении вероятности и статистики, включая правила, помогающие дифференцировать многомерную гауссовскую вероятность.

Если у вас есть случайный вектор который является многомерной нормалью со средним вектором и ковариационной матрицей , то используйте уравнение (86) в поваренной книге матрицы, чтобы найти градиент логарифмическая вероятность относительно равна ${\boldsymbol y}$ ${\boldsymbol \mu}$ ${\boldsymbol \Sigma}$ ${\bf L}$ ${\boldsymbol \mu}$

\begin{aligned} \frac{\partial L}{\partial μ} & = - \frac{1}{2} (\frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial μ}) \\ = - \frac{1}{2} (- 2 Σ^{- 1} (y - μ)) \\ = Σ^{- 1} (y - μ) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$

Я оставлю это вам, чтобы разграничить это снова и найти ответ: . $-{\boldsymbol \Sigma}^{-1}$

В качестве «дополнительного кредита» используйте уравнения (57) и (61), чтобы определить, что градиент по отношению к равен ${\boldsymbol \Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (\frac{\partial \log (| Σ |)}{\partial Σ} + \frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial Σ}) \\ = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align}$

Я пропустил много шагов, но я сделал этот вывод, используя только идентификаторы, найденные в матричной поваренной книге, поэтому я оставлю это вам, чтобы заполнить пробелы.

Я использовал эти уравнения для оценки максимального правдоподобия, поэтому я знаю, что они правильные :)

— макрос
источник

Отличный отзыв - собирался рекомендовать это сам. Не очень хороший педагогический справочник для тех, кто не знает матричной алгебры. Настоящая проблема возникает из-за разработки . Настоящая боль.

Σ

$\Sigma$

— вероятностная

Еще один хороший источник по матричным исчислениям - Magnus & Neudecker, amazon.com/…

— StasK

Ссылочный номер уравнения был изменен (возможно, из-за новой редакции). Новая ссылка уравнение 86.

— goelakash

Я мог бы быть вне базы здесь, но я не думаю, что эта формула верна. Я использовал это на реальных примерах и смотрю на их конечные различия. Кажется, что формула для дает правильные значения для диагональных элементов. Однако недиагональные записи - это половина того, что должно быть.

\frac{\partial L}{\partial Σ}

$\frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}}$

— jjet

Вам нужно убедиться, что вы правильно позаботились о повторяющихся элементах в , иначе ваши производные будут неверными. Например, (141) Matrix Cookbook дает для симметричной следующие производные $\mathbf{\Sigma}$ $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial \log | Σ |}{\partial Σ} & = 2 Σ^{- 1} - (Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \log|\mathbf{\Sigma}|}{\partial \mathbf{\Sigma}}&=2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) \end{align}$

И (14) Дифференцирования функций ковариационных матриц дает

\begin{aligned} \frac{\partial trace (Σ^{- 1} x x^{⊤})}{\partial Σ} & = - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)}{\partial \mathbf{\Sigma}}&=-2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I) \end{align}$

где обозначает произведение Хадмарда, и для удобства мы определили . $\circ$ $\mathbf{x}:=\mathbf{y}-\mathbf{\mu}$

Обратите внимание, в частности, это не то же самое, что когда симметричность не навязывается. В результате мы имеем это $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{\partial}{\partial Σ} \frac{1}{2} (D \log | 2 π | + \log | Σ | + x^{⊤} Σ^{- 1} x)) \\ = - \frac{\partial}{\partial Σ} \frac{1}{2} (\log | Σ | + trace (Σ^{- 1} x x^{⊤})) \\ = - \frac{1}{2} (2 Σ^{- 1} - (Σ^{- 1} \circ I) - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I)) \end{aligned}

$\begin{align} \frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}&=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left(D\log|2\pi|+ \log|\mathbf{\Sigma}| + \mathbf{x}^{\top}\mathbf{\Sigma}^{-1}\mathbf{x})\right)\\ &=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left( \log|\mathbf{\Sigma}| + \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)\right)\\ &=-\frac{1}{2}\left( 2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) -2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I)\right) \end{align}$

где обозначает размерность , и и производную отэто 0 $D$ $\mathbf{x}$ $\mathbf{y}$ $\mathbf{\mu}$ $D\log|2\pi|$

Это обеспечивает то элемент в соответствует . $i,j^{th}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}_{ij}}$

— Лоуренс Миддлтон
источник

Я попытался вычислительно проверить ответ @ Macro, но обнаружил, что кажется незначительной ошибкой в ковариационном решении. Он получил Однако оказывается, что на самом деле правильным решением является Следующий скрипт R предоставляет простой пример, в котором конечная разница вычисляется для каждого элемента . Это показывает, что

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) = A \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) ={\bf A} \end{align}$

B = 2 A - diag (A)

${\bf B}=2{\bf A} - \text{diag}({\bf A})$

Σ

${\boldsymbol \Sigma}$

A

${\bf A}$ обеспечивает правильный ответ только для диагональных элементов, в то время как является правильным для каждой записи.

B

${\bf B}$

library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

— jjet
источник

Спасибо за ваш комментарий. Я полагаю, что вы интерпретируете нотацию иначе, чем все остальные, потому что вы одновременно меняете пары совпадающих недиагональных элементов , тем самым удваивая эффект от изменения. Фактически вы вычисляете кратное производной по направлению. Кажется, существует небольшая проблема с решением Macro, поскольку необходимо принять транспонирование, но это ничего не изменит в приложении к симметричным матрицам.

Σ

$\Sigma$

— whuber