Оценка неопределенности в задачах многомерного вывода без выборки?

Я работаю над проблемой многомерного вывода (около 2000 параметров модели), для которой мы можем надежно выполнить оценку MAP, найдя глобальный максимум логарифмического аппроксимации, используя комбинацию градиентной оптимизации и генетического алгоритма.

Я очень хотел бы иметь возможность сделать некоторую оценку неопределенности параметров модели в дополнение к нахождению оценки MAP.

Мы можем эффективно рассчитать градиент логарифмического апостериорного значения по отношению к параметрам, поэтому в долгосрочной перспективе мы стремимся использовать гамильтониан MCMC для проведения некоторой выборки, но сейчас меня интересуют оценки, не основанные на выборке.

Единственный известный мне подход состоит в том, чтобы вычислить обратное значение гессиана в моде, чтобы аппроксимировать апостериорную многовариантную нормаль, но даже это кажется невозможным для такой большой системы, поскольку даже если мы вычислим элементы гессиана, я уверен, мы не смогли найти его обратное. $\sim 4\times10^{6}$

Кто-нибудь может подсказать, какие подходы обычно используются в подобных случаях?

Спасибо!

РЕДАКТИРОВАТЬ - дополнительная информация о проблеме

Предпосылки
Это обратная проблема, связанная с большим физическим экспериментом. У нас есть двумерная треугольная сетка, которая описывает некоторые физические поля, а нашими модельными параметрами являются физические значения этих полей в каждой вершине сетки. Сетка имеет около 650 вершин, и мы моделируем 3 поля, так вот откуда берутся наши 2000 параметров модели.

Наши экспериментальные данные получены от приборов, которые не измеряют эти поля напрямую, а являются величинами, которые являются сложными нелинейными функциями полей. Для каждого из различных инструментов у нас есть прямая модель, которая отображает параметры модели на предсказания экспериментальных данных, а сравнение между предсказанием и измерением дает логарифмическую вероятность.

Затем мы суммируем правдоподобие логарифмов от всех этих различных инструментов, а также добавляем некоторые значения предшествующего журнала, которые применяют некоторые физические ограничения к полям.

Следовательно, я сомневаюсь, что эта «модель» аккуратно попадает в категорию - у нас нет выбора, что это за модель, это продиктовано тем, как функционируют реальные инструменты, которые собирают наши экспериментальные данные.

Набор данных Набор
данных состоит из 500x500 изображений, и для каждой камеры имеется одно изображение, поэтому общее количество точек данных составляет 500x500x4 = . $10^6$

Модель ошибок
Мы считаем, что все ошибки в задаче в настоящий момент являются гауссовыми. В какой-то момент я мог бы попытаться перейти к модели ошибок ученика-т, просто для некоторой дополнительной гибкости, но, похоже, что все работает хорошо только с гауссианами.

Пример правдоподобия
Это эксперимент по физике плазмы, и подавляющее большинство наших данных поступают с камер, направленных на плазму с определенными фильтрами перед линзами, которые смотрят только на определенные части светового спектра.

Для воспроизведения данных есть два шага; сначала мы должны смоделировать свет, который исходит от плазмы на сетке, затем мы должны смоделировать этот свет обратно на изображение с камеры.

К сожалению, моделирование света, который исходит от плазмы, зависит от того, какие коэффициенты скорости эффективно отражают, сколько света испускается различными процессами при заданных полях. Эти показатели прогнозируются некоторыми дорогими числовыми моделями, поэтому мы должны хранить их результаты в сетках, а затем интерполировать для поиска значений. Данные функции скорости вычисляются только один раз - мы сохраняем их, затем строим из них сплайн при запуске кода, а затем этот сплайн используется для всех вычислений функции.

Предположим, что и - функции скорости (которые мы оцениваем интерполяцией), тогда излучение в -й вершине сетки задается как где 3 поля, которые мы моделируем в сетке. Получить вектор излучений для изображения с камеры легко, это просто умножение на матрицу которая кодирует, какие части сетки просматривает каждый пиксель камеры. $R_1$ $R_2$ $i$ $\mathcal{E}_i$

E_{i} = R_{1} (x_{i}, y_{i}) + z_{i} R_{2} (x_{i}, y_{i})

$\mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i)$

(x, y, z)

$(x,y,z)$

G

$\mathbf{G}$

Так как ошибки гауссовы, логарифмическая вероятность для этой конкретной камеры тогда равна

L = - \frac{1}{2} (G \vec{E} - \vec{d})^{⊤} Σ^{- 1} (G \vec{E} - \vec{d})

$\mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})^{\top}\mathbf{\Sigma}^{-1} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})$

где $\vec{d}$ - данные камеры. Общее логарифмическое правдоподобие представляет собой сумму 4 из приведенных выше выражений, но для разных камер, которые имеют разные версии функций скорости $R_1, R_2$ потому что они смотрят на разные части светового спектра.

Предыдущий пример
У нас есть различные априорные значения, которые фактически просто устанавливают определенные верхние и нижние границы для различных величин, но они не слишком сильно влияют на проблему. У нас есть один априор, который действует сильно, который эффективно применяет сглаживание лапласовского типа к полям. Он также принимает гауссову форму:

log-prior = - \frac{1}{2} {\vec{x}}^{⊤} S \vec{x} - \frac{1}{2} {\vec{y}}^{⊤} S \vec{y} - \frac{1}{2} {\vec{z}}^{⊤} S \vec{z}

$\text{log-prior} = -\frac{1}{2}\vec{x}^{\top}\mathbf{S}\vec{x} -\frac{1}{2}\vec{y}^{\top}\mathbf{S}\vec{y} -\frac{1}{2}\vec{z}^{\top}\mathbf{S}\vec{z}$

— CBowman
источник

Какую модель вы подходите? Линейная регрессия? GP? Иерархическая модель подсчета? Байесовская калибровка компьютерной модели? Пожалуйста, добавьте больше деталей о проблеме, которую вы решаете, и я напишу ответ с плюсами и минусами VI.

— DeltaIV

@DeltaIV Я обновил вопрос с дополнительной информацией - возможно, я не уточнил, что именно вы искали. Если так, дайте мне знать, и я сделаю еще одну правку, спасибо!

— CBowman

@DeltaIV Еще раз спасибо! Добавлена дополнительная информация, дайте мне знать, если я могу добавить что-нибудь еще.

— CBowman

@DeltaIV изображения данных 500x500, и есть одно для каждой камеры, поэтому общее количество точек данных составляет 500x500x4 =

. Данные функции скорости вычисляются только один раз - мы сохраняем их, затем строим из них сплайн при запуске кода, а затем этот сплайн используется для всех вычислений функции.

10^{6}

$10^6$

— CBowman

У меня нет ссылки, но существует множество приближений низкого ранга для вычисления обратной матрицы. например, найти самые большие

собственных значений, предположить, что оставшиеся

равны, и использовать грубое приближение для собственных векторов, соответствующих низкому собственному значению. Я почти уверен, что есть также приблизительные / итеративные разложения Холецкого, которые сходятся к точному значению. просто

k

$k$

2000 - k

$2000-k$

— вероятностное

Ответы:

Прежде всего, я думаю, что ваша статистическая модель неверна. Я изменил вашу запись на более знакомую статистику, поэтому

d = y = (y_{1}, \dots, y_{N}), N = 10^{6}

$\mathbf{d}=\mathbf{y}=(y_1,\dots,y_N),\ N=10^6$

быть вашим вектором наблюдений (данных), и

\begin{aligned} x & = θ = (θ_{1}, \dots, θ_{p}) \\ y & = ϕ = (ϕ_{1}, \dots, ϕ_{p}) \\ z & = ρ = (ρ_{1}, \dots, ρ_{p}), p \approx 650 \end{aligned}

$\begin{align} \mathbf{x}&=\boldsymbol{\theta}=(\theta_1,\dots,\theta_p) \\ \mathbf{y}&=\boldsymbol{\phi}=(\phi_1,\dots,\phi_p) \\ \mathbf{z}&=\boldsymbol{\rho}=(\rho_1,\dots,\rho_p), \ p \approx 650 \\ \end{align}$

ваши векторы параметров, общей размерности $d=3p \approx 2000$ . Тогда, если я правильно понял, вы принимаете модель

y = G r_{1} (θ, ϕ) + ρ G r_{2} (θ, ϕ)) + ϵ, ϵ \sim N (0, I_{N})

$\mathbf{y} = \mathbf{G}\mathbf{r_1}(\boldsymbol{\theta}, \boldsymbol{\phi})+\boldsymbol{\rho}\mathbf{G}\mathbf{r_2}(\boldsymbol{\theta}, \boldsymbol{\phi}))+\boldsymbol{\epsilon},\ \boldsymbol{\epsilon}\sim\mathcal{N}(0,I_N)$

где $\mathbf{G}$ - матрица сплайн-интерполяции $N\times d$ .

Это явно неправильно. В любом случае ошибки в разных точках изображения с одной и той же камеры и в одной и той же точке на изображениях с разных камер не являются независимыми. Вы должны изучить пространственную статистику и модели, такие как обобщенные наименьшие квадраты, оценка вариограммы, кригинг, процессы Гаусса и т. Д.

Сказав это, поскольку ваш вопрос не в том, является ли модель хорошим приближением к фактическому процессу генерирования данных, а в том, как оценить такую модель, я покажу вам несколько вариантов для этого.

HMC

2000 параметров не очень большая модель, если вы не тренируете эту вещь на ноутбуке. Набор данных больше ( $10^6$ точек данных), но, тем не менее, если у вас есть доступ к облачным экземплярам или компьютерам с графическими процессорами, такие платформы, как Pyro или Tensorflow Вероятность, справятся с такой проблемой. Таким образом, вы можете просто использовать графический процессор Монте-Карло с графическим процессором.

Плюсы : «точный» вывод, в пределе бесконечное количество выборок из цепочки.

Минусы : нет жесткой оценки ошибки оценки, существуют множественные метрики диагностики сходимости, но ни одна из них не является идеальной.

Приближение большой выборки

Используя неправильные обозначения, обозначим через $\theta$ вектор, полученный путем объединения трех ваших векторов параметров. Затем, используя байесовскую центральную предельную теорему (Бернштейна-фон Мизеса), вы можете аппроксимировать $p(\theta\vert \mathbf{y})$ с помощью $\mathcal{N}(\hat{\theta_0}_n,I_n^{-1}(\theta_0))$ , где $\theta_0$ - это «истина» значение параметра, $\hat{\theta_0}_n$ является оценкой MLE $\theta_0$ и $I_n^{-1}(\theta_0)$ - информационной матрицы Фишера, оцененной при $\theta_0$ . Конечно, $\theta_0$ неизвестно,вместо этогомы будем использовать $I_n^{-1}(\hat{\theta_0}_n)$ . Справедливость теоремы Бернштейна-фон Мизеса зависит от нескольких гипотез, которые вы можете найти, например,здесь: в вашем случае, предполагая, что $R_1,R_2$ гладкие и дифференцируемые, теорема справедлива, потому что поддержка Гауссовский априор - это целое пространство параметров. Или лучше былобы быть действительным, если ваши данные были на самом деле iid, как вы предполагаете, но я не верю, что они, как я объяснил в начале.

Достоинства : особенно полезные в $p<<N$ случае. Гарантируется сходство к правильному ответу в настройках iid, когда вероятность является гладкой и дифференцируемой, а предшествующее значение равно нулю в окрестности $\theta_0$ .

Минусы : Самым большим минусом, как вы отметили, является необходимость инвертировать информационную матрицу Фишера. Кроме того, я не знаю, как судить о точности аппроксимации эмпирически, за исключением использования сэмплера MCMC для отбора образцов из $p(\theta\vert \mathbf{y})$ . Конечно, это лишило бы пользы использования B-vM.

Вариационный вывод

$p(\theta\vert \mathbf{y})$ $d-$ $p$ $q_{\phi}(\theta)$ $q$ $\mathcal{Q}_{\phi}$ $\phi$ $\phi^*$ $q$ $p$

ϕ^{*} = \underset{ϕ \in Φ}{a r g m i n} D_{K L} (q_{ϕ} (θ) | | p (θ | y))

$\DeclareMathOperator*{\argmin}{arg\,min} \phi^*=\argmin_{\phi\in\Phi}D_{KL}(q_{\phi}(\theta)||p(\theta\vert\mathbf{y}))$

$q_{\phi}(\theta)$

$\phi$
$p(\theta\vert\mathbf{y})$ $\phi$ $q$

$q_{\phi}(\theta)$ $d$

q_{ϕ} (θ) = \prod_{i = 1}^{d} q_{ϕ_{i}} (θ_{i})

$q_{\phi}(\theta)=\prod_{i=1}^d q_{\phi_i}(\theta_i)$

$q_{\phi_j}(\theta_j)$

\log q_{j}^{*} (θ_{j}) = E_{i \neq j} [\log p (y, θ)] + const.

$\log{q_j^*(\theta_j)} = \mathbb{E}_{i\neq j}[\log{p(\mathbf{y},\theta)}] + \text{const.}$

$p(\mathbf{y},\theta)$ $q_1^*(\theta_1),\dots,q_{j-1}^*(\theta_{j-1}),q_{j+1}^*(\theta_{j+1}),\dots,q_{d}^*(\theta_{d})$ $q_{i}(\theta_{i})$ $(d-1)-$

$q$ $q_i$ $q$ $N$ Точки данных. Чтобы амортизировать стоимость вывода, нейронная сеть используется для сопоставления входного пространства с пространством параметров вариации. См. Статью с подробным описанием алгоритма: реализации VAE снова доступны во всех основных средах глубокого обучения.

— DeltaIV
источник

что модель независимости VB может быть ужасным подходом к точности

s^{2}

$s^2$

@DeltaIV Статистическая модель, как правило, довольно хорошая, ошибки между разными камерами очень независимы, и разные пиксели в одной и той же камере также будут в основном независимыми, если они буквально не соседствуют друг с другом. Мы могли бы закодировать некоторую пространственную корреляцию в смежных пикселях с использованием вероятности гауссовского процесса, но это потребовало бы от нас либо прямого инвертирования ковариационной матрицы, либо решения разреженной линейной системы каждый раз, когда мы хотим оценить вероятность, что намного больше дорого (хотя и не может быть и речи).

— CBowman

Вы можете проверить некоторые из программного обеспечения "bayesX" и, возможно, также программное обеспечение "inla". у обоих из них, вероятно, есть некоторые идеи, которые вы можете попробовать. поищи в Гугле

оба очень сильно полагаются на использование разреженности при параметризации матрицы точности (т.е. условная независимость, модель типа Маркова) - и имеют алгоритмы инверсии, разработанные для этого. Большинство примеров основаны на многоуровневых или авторегрессивных моделях Гасса. должно быть довольно похоже на пример, который вы опубликовали

— probabilityislogic
источник