Обновление байесовского фактора

Байесовский фактор определяется в байесовском тестировании гипотезы и выборе байесовской модели соотношением двух предельных правдоподобий: с учетом выборки iid и соответствующих плотностей выборки и , с соответствующими приорами и , для сравнения двух моделей используется байесовский фактор: книга Я в настоящее время рассматривает имеет странное утверждение , что выше Байеса фактор $(x_1,\ldots,x_n)$ $f_1(x|\theta)$ $f_2(x|\eta)$ $\pi_1$ $\pi_2$

В_{12} ({Икс}_{1}, ..., {Икс}_{N}) \overset{Защита}{знак равно} \frac{м_{1} ({Икс}_{1}, ..., {Икс}_{N})}{м_{2} ({Икс}_{1}, ..., {Икс}_{N})} \overset{Защита}{знак равно} \frac{\int Π_{я знак равно 1}^{N} е_{1} ({Икс}_{я} | θ) π_{1} (d θ)}{\int Π_{я знак равно 1}^{N} е_{2} ({Икс}_{я} | η) π_{2} (d η)}

$\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}$

B_{12} (x_{1}, \dots, x_{n})

$\mathfrak{B}_{12}(x_1,\ldots,x_n)$ «формируется путем умножения отдельных единиц [факторов Байеса] вместе» (стр.118). Это формально верно, если использовать разложение но я не вижу вычислительного преимущества в этой декомпозиции как обновления требует таких же вычислительных усилий, что и исходное вычисление

\begin{aligned} В_{12} ({Икс}_{1}, ..., {Икс}_{N}) & знак равно \frac{м_{1} ({Икс}_{1}, ..., {Икс}_{N})}{м_{2} ({Икс}_{1}, ..., {Икс}_{N})} \\ знак равно \frac{м_{1} ({Икс}_{N} | {Икс}_{1}, ..., {Икс}_{N - 1})}{м_{2} ({Икс}_{N} | {Икс}_{1}, ..., {Икс}_{N - 1})} \times \frac{м_{1} ({Икс}_{N - 1} | {Икс}_{N - 2}, ..., {Икс}_{1})}{м_{2} ({Икс}_{N - 1} | {Икс}_{N - 2}, ..., {Икс}_{1})} \times \dots \\ \dots \times \frac{м_{1} ({Икс}_{1})}{м_{2} ({Икс}_{1})} \end{aligned}

$\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}$

\frac{м_{1} ({Икс}_{N} | {Икс}_{1}, ..., {Икс}_{N - 1})}{м_{2} ({Икс}_{N} | {Икс}_{1}, ..., {Икс}_{N - 1})}

$\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}$

\frac{м_{1} ({Икс}_{1}, ..., {Икс}_{N})}{м_{2} ({Икс}_{1}, ..., {Икс}_{N})}

$\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}$ за пределами примеров искусственных игрушек.

Вопрос: существует ли общий и эффективный с точки зрения вычислений способ обновления фактора Байеса с до , который не требует пересчета целых маргиналов и ? $\mathfrak{B}_{12}(x_1,\ldots,x_n)$ $\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})$ $m_1(x_1,\ldots,x_n)$ $m_2(x_1,\ldots,x_n)$

Моя интуиция заключается в том, что, кроме фильтров частиц, которые действительно продолжают оценивать байесовские факторы одному новому наблюдению за один раз, нет естественного способа ответить на этот вопрос , $\mathfrak{B}_{12}(x_1,\ldots,x_n)$

— Сиань
источник

Мне не кажется ясным, что формулировка подразумевает обязательную последовательную факторизацию, так как наблюдения там же. В аспирантуре профессор упомянул, что продукт подразумевает, что можно использовать асимптотические приближения для байесовского анализа, но странным образом это не завоевало популярность (сарказм). Может быть, книга может быть намекает на это?

— Клифф AB

@CliffAB: Да, вы можете переписать вероятность как среднее значение отдельных терминов, сходясь к расстоянию Кульбака-Лейблера от истинного распределения. Но я не думаю, что это так, хотя книга недостаточно ясна, чтобы держать все варианты открытыми.

— Сиань

Я полагаю, что во втором отображаемом уравнении есть опечатка: должно ли быть во втором множителе во второй строке?

m_{1} (x_{n - 1} | x_{n - 1}, \dots, x_{1})

$m_1(x_{n-1}|x_{n-1}, \ldots, x_1)$

— Йохен

Предположительно, цель рекурсивного уравнения для байесовского фактора будет заключаться в том, что вы уже рассчитали байесовский коэффициент для точек данных и хотите иметь возможность обновить его с помощью одной дополнительной точки данных. Кажется, что это можно сделать без пересчета маргиналов предыдущего вектора данных, если известна форма апостериорной функции . Предполагая, что мы знаем форму этой функции (и принимая данные IID, как в вашем вопросе), прогнозирующая плотность может быть записана как: $n$ $\pi_n$

\begin{aligned} м ({Икс}_{N + 1} | {Икс}_{1},,,,, {Икс}_{N}) & знак равно \int_{Θ} е ({Икс}_{N + 1} | θ) π_{N} (d θ | {Икс}_{1},,,,, {Икс}_{N}), \end{aligned}

$\begin{equation} \begin{aligned} m(x_{n+1} | x_1,...,x_n) &= \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Следовательно, у вас есть:

\begin{aligned} м ({Икс}_{1},,,,, {Икс}_{N + 1}) & знак равно м ({Икс}_{1},,,,, {Икс}_{N}) \int_{Θ} е ({Икс}_{N + 1} | θ) π_{N} (d θ | {Икс}_{1},,,,, {Икс}_{N}), \end{aligned}

$\begin{equation} \begin{aligned} m(x_1,...,x_{n+1}) &= m(x_1,...,x_n) \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Сравнивая два модельных класса с помощью байесовского фактора, мы получаем рекурсивное уравнение:

\begin{aligned} В_{12} ({Икс}_{1},,,,, {Икс}_{N + 1}) & знак равно В_{12} ({Икс}_{1},,,,, {Икс}_{N}) \cdot \frac{\int_{Θ_{1}} е ({Икс}_{N + 1} | θ) π_{1, N} (d θ | {Икс}_{1},,,,, {Икс}_{N})}{\int_{Θ_{2}} е ({Икс}_{N + 1} | θ) π_{2, N} (d θ | {Икс}_{1},,,,, {Икс}_{N})}, \end{aligned}

$\begin{equation} \begin{aligned} \mathfrak{B}_{12}(x_1,...,x_{n+1}) &= \mathfrak{B}_{12}(x_1,...,x_{n}) \cdot \frac{\int _{\Theta_1} f(x_{n+1}|\theta) \pi_{1,n}(d \theta | x_1,...,x_n)}{\int _{\Theta_2} f(x_{n+1}|\theta) \pi_{2,n}(d \theta | x_1,...,x_n)}. \\[6pt] \end{aligned} \end{equation}$

Это все еще включает в себя интеграцию по диапазону параметров, поэтому я согласен с вашей точкой зрения, что, по-видимому, нет никакого вычислительного преимущества по сравнению с простым пересчетом коэффициента Байеса через исходную формулу, которую вы даете. Тем не менее, вы можете видеть, что это не требует пересчета предельных значений для предыдущего вектора данных. (Вместо этого мы вычисляем прогнозируемую плотность новой точки данных, зависящую от предыдущих данных, для каждого из классов модели.) Как и вы, я не вижу в этом никакого вычислительного преимущества, если только не произойдет, что эта интегральная формула легко упрощается. В любом случае, я полагаю, это дает вам другую формулу для обновления байесовского фактора.

— Бен - Восстановить Монику
источник

Спасибо. Это правда, что маргинальные значения не нужно пересчитывать, строго говоря , но объем вычислений, как вы заметили, одинаков.

— Сиань

n

$n$