Я работаю над проблемой многомерного вывода (около 2000 параметров модели), для которой мы можем надежно выполнить оценку MAP, найдя глобальный максимум логарифмического аппроксимации, используя комбинацию градиентной оптимизации и генетического алгоритма.
Я очень хотел бы иметь возможность сделать некоторую оценку неопределенности параметров модели в дополнение к нахождению оценки MAP.
Мы можем эффективно рассчитать градиент логарифмического апостериорного значения по отношению к параметрам, поэтому в долгосрочной перспективе мы стремимся использовать гамильтониан MCMC для проведения некоторой выборки, но сейчас меня интересуют оценки, не основанные на выборке.
Единственный известный мне подход состоит в том, чтобы вычислить обратное значение гессиана в моде, чтобы аппроксимировать апостериорную многовариантную нормаль, но даже это кажется невозможным для такой большой системы, поскольку даже если мы вычислим элементы гессиана, я уверен, мы не смогли найти его обратное.
Кто-нибудь может подсказать, какие подходы обычно используются в подобных случаях?
Спасибо!
РЕДАКТИРОВАТЬ - дополнительная информация о проблеме
Предпосылки
Это обратная проблема, связанная с большим физическим экспериментом. У нас есть двумерная треугольная сетка, которая описывает некоторые физические поля, а нашими модельными параметрами являются физические значения этих полей в каждой вершине сетки. Сетка имеет около 650 вершин, и мы моделируем 3 поля, так вот откуда берутся наши 2000 параметров модели.
Наши экспериментальные данные получены от приборов, которые не измеряют эти поля напрямую, а являются величинами, которые являются сложными нелинейными функциями полей. Для каждого из различных инструментов у нас есть прямая модель, которая отображает параметры модели на предсказания экспериментальных данных, а сравнение между предсказанием и измерением дает логарифмическую вероятность.
Затем мы суммируем правдоподобие логарифмов от всех этих различных инструментов, а также добавляем некоторые значения предшествующего журнала, которые применяют некоторые физические ограничения к полям.
Следовательно, я сомневаюсь, что эта «модель» аккуратно попадает в категорию - у нас нет выбора, что это за модель, это продиктовано тем, как функционируют реальные инструменты, которые собирают наши экспериментальные данные.
Набор данных Набор
данных состоит из 500x500 изображений, и для каждой камеры имеется одно изображение, поэтому общее количество точек данных составляет 500x500x4 = .
Модель ошибок
Мы считаем, что все ошибки в задаче в настоящий момент являются гауссовыми. В какой-то момент я мог бы попытаться перейти к модели ошибок ученика-т, просто для некоторой дополнительной гибкости, но, похоже, что все работает хорошо только с гауссианами.
Пример правдоподобия
Это эксперимент по физике плазмы, и подавляющее большинство наших данных поступают с камер, направленных на плазму с определенными фильтрами перед линзами, которые смотрят только на определенные части светового спектра.
Для воспроизведения данных есть два шага; сначала мы должны смоделировать свет, который исходит от плазмы на сетке, затем мы должны смоделировать этот свет обратно на изображение с камеры.
К сожалению, моделирование света, который исходит от плазмы, зависит от того, какие коэффициенты скорости эффективно отражают, сколько света испускается различными процессами при заданных полях. Эти показатели прогнозируются некоторыми дорогими числовыми моделями, поэтому мы должны хранить их результаты в сетках, а затем интерполировать для поиска значений. Данные функции скорости вычисляются только один раз - мы сохраняем их, затем строим из них сплайн при запуске кода, а затем этот сплайн используется для всех вычислений функции.
Предположим, что и - функции скорости (которые мы оцениваем интерполяцией), тогда излучение в -й вершине сетки задается как
где 3 поля, которые мы моделируем в сетке. Получить вектор излучений для изображения с камеры легко, это просто умножение на матрицу которая кодирует, какие части сетки просматривает каждый пиксель камеры.
Так как ошибки гауссовы, логарифмическая вероятность для этой конкретной камеры тогда равна
где - данные камеры. Общее логарифмическое правдоподобие представляет собой сумму 4 из приведенных выше выражений, но для разных камер, которые имеют разные версии функций скорости потому что они смотрят на разные части светового спектра.
Предыдущий пример
У нас есть различные априорные значения, которые фактически просто устанавливают определенные верхние и нижние границы для различных величин, но они не слишком сильно влияют на проблему. У нас есть один априор, который действует сильно, который эффективно применяет сглаживание лапласовского типа к полям. Он также принимает гауссову форму: