Как обеспечить свойства ковариационной матрицы при подборе многомерной нормальной модели с использованием максимального правдоподобия?

22

Предположим, у меня есть следующая модель

Y_{я} знак равно е ({Икс}_{я}, θ) + ε_{я}

$y_i=f(x_i,\theta)+\varepsilon_i$

где , - вектор объясняющих переменных, - параметры нелинейной функции и , где естественно, матрица. $y_i\in \mathbb{R}^K$ $x_i$ $\theta$ $f$ $\varepsilon_i\sim N(0,\Sigma)$ $\Sigma$ $K\times K$

Целью является обычная оценка и . Очевидный выбор - метод максимального правдоподобия. Логарифмическая вероятность для этой модели (при условии, что у нас есть образец ) выглядит следующим образом $\theta$ $\Sigma$ $(y_i,x_i),i=1,...,n$

L (θ, Σ) знак равно - \frac{N}{2} журнал (2 π) - \frac{N}{2} журнал йе Σ - Σ_{я знак равно 1}^{N} (Y_{я} - е ({Икс}_{я}, θ))^{'} Σ^{- 1} (Y - е ({Икс}_{я}, θ)))

$l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta)))$

Теперь это кажется простым, логарифмическая правдоподобность указывается, вводится в данные и использует некоторый алгоритм для нелинейной оптимизации. Проблема заключается в том, чтобы убедиться, что $\Sigma$ положительно определен. Использование, например, optimв R (или любом другом алгоритме нелинейной оптимизации) не гарантирует мне, что $\Sigma$ положительно определен.

Таким образом, вопрос заключается в том, как обеспечить, чтобы $\Sigma$ оставалась положительно определенной? Я вижу два возможных решения:

Reparametrise $\Sigma$ as $RR'$ где $R$ - верхнетреугольная или симметричная матрица. Тогда $\Sigma$ всегда будет положительно определенным и $R$ может быть неограниченным.
Используйте профиль вероятности. Выведите формулы для $\hat\theta(\Sigma)$ и $\hat{\Sigma}(\theta)$ . Начните с некоторого $\theta_0$ и $\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})$ , $\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})$ до схождения.

Есть ли какой-то другой способ, и как насчет этих двух подходов, они будут работать, они стандартные? Это кажется довольно стандартной проблемой, но быстрый поиск не дал мне никаких указаний. Я знаю, что байесовская оценка была бы также возможна, но на данный момент я не хотел бы участвовать в ней.

maximum-likelihood optimization covariance

— mpiktas
источник

У меня та же проблема в алгоритме Калмана, но проблема намного сложнее и не так проста в использовании трюка Гамильтона. Тогда мне интересно, проще ли было бы использовать . Таким образом, я заставляю код не выдавать ошибку и не менять решение. Это также имеет то преимущество, что этот термин имеет тот же знак, что и заключительная часть вероятности. Любые идеи?

\log (det Σ + 1)

$\log (\det \Sigma+1)$

— econ_pipo

6

Предполагая, что при построении ковариационной матрицы вы автоматически решаете проблему симметрии, ваша логарифмическая вероятность будет когда не является положительно определенным из-за термина в модель не так ли? Чтобы предотвратить числовую ошибку, если я бы предварительно вычислил и, если она не является положительной, затем сделал равной вероятность записи -Inf, в противном случае продолжу. Вы все равно должны рассчитать определитель, так что это не потребует дополнительных затрат. $-\infty$ $\Sigma$ $\log {\rm det} \ \Sigma$ ${\rm det} \ \Sigma < 0$ ${\rm det} \ \Sigma$

— макрос
источник

5

Как выясняется, вы можете использовать профиль максимального правдоподобия для обеспечения необходимых свойств. Вы можете доказать, что для данного , максимизируется $\hat\theta$ $l(\hat\theta,\Sigma)$

\hat{Σ} знак равно \frac{1}{N} Σ_{я знак равно 1}^{N} {\hat{ε}}_{я} {\hat{ε}}_{я}^{'},

$\hat\Sigma=\frac{1}{n}\sum_{i=1}^n\hat{\varepsilon}_i\hat{\varepsilon}_i',$

где

{\hat{ε}}_{я} знак равно Y_{я} - е ({Икс}_{я}, \hat{θ})

$\hat{\varepsilon}_i=y_i-f(x_i,\hat\theta)$

Тогда можно показать, что

\sum_{i = 1}^{n} (y_{i} - f (x_{i}, \hat{θ}))^{'} {\hat{Σ}}^{- 1} (y - f (x_{i}, \hat{θ}))) = c o n s t,

$\sum_{i=1}^n(y_i-f(x_i,\hat\theta))'\hat\Sigma^{-1}(y-f(x_i,\hat\theta)))=const,$

следовательно, нам нужно только максимизировать

l_{R} (θ, Σ) = - \frac{n}{2} \log det \hat{Σ} .

$l_R(\theta,\Sigma)=-\frac{n}{2} \log\det\hat\Sigma.$

Естественно, в этом случае будет удовлетворять все необходимые свойства. Доказательства идентичны для случая, когда линейна, что можно найти в «Анализе временных рядов » Дж. Д. Гамильтона, стр. 295, поэтому я их опускаю. $\Sigma$ $f$

— mpiktas
источник

3

Альтернативная параметризация для ковариационной матрицы выражается в терминах собственных значений и углов «Гивенса» . $\lambda_1,...,\lambda_p$ $p(p-1)/2$ $\theta_ij$

То есть мы можем написать

Σ = G^{T} Λ G

$\Sigma = G^T \Lambda G$

где ортонормирован, и $G$

Λ = d i a g (λ_{1}, . . ., λ_{p})

$\Lambda = diag(\lambda_1, ..., \lambda_p)$

с . $\lambda_1 \geq ... \geq \lambda_p \geq 0$

Между тем, может быть уникально параметризована в терминах углов, , где и . [1] $G$ $p(p-1)/2$ $\theta_{ij}$ $i = 1,2,...,p-1$ $j = i, ..., p-1$

(подробности будут добавлены)

[1]: Хоффман, Раффенетти, Рюденберг. «Обобщение углов Эйлера на N-мерные ортогональные матрицы». J. Math. Phys. 13, 528 (1972)

— charles.y.zheng
источник

Матрица фактически ортогональна, потому что является симметричной матрицей. Это тот подход, который я собирался рекомендовать - в основном это вращение вектора и модельной функции чтобы ошибки были независимыми, а затем применение OLS к каждому из повернутых компонентов (я думаю).

G

$G$

Σ

$\Sigma$

y_{i}

$y_i$

f (x_{i}, θ)

$f(x_i,\theta)$

— вероятностная

2

В соответствии с решением charles.y.zheng, вы можете захотеть смоделировать , где - диагональная матрица, а - разложение Холецкого ранга, обновляющего , Только тогда вам нужно сохранить положительную диагональ чтобы сохранить положительную определенность . То есть вы должны оценить диагональ и элементы вместо оценки . $\Sigma = \Lambda + C C^{\top}$ $\Lambda$ $C$ $\Lambda$ $\Lambda$ $\Sigma$ $\Lambda$ $C$ $\Sigma$

— shabbychef
источник

Могут ли элементы диагонали ниже диагонали в этих настройках быть тем, что я хочу, если диагональ положительна? При моделировании матриц таким способом в numy не все они являются положительно определенными.

— Шталь

Λ

$\Lambda$ - это диагональная матрица.

— Шаббычеф