Байесовское обновление с новыми данными

17

Как мы можем вычислить апостериор с предшествующим N ~ (a, b) после наблюдения n точек данных? Я предполагаю, что мы должны вычислить среднее значение выборки и дисперсию точек данных и выполнить какое-то вычисление, которое объединяет апостериор с предыдущим, но я не совсем уверен, как выглядит формула комбинации.

bayesian normal-distribution conjugate-prior

— statstudent
источник

22

Основная идея байесовского обновления заключается в том, что с учетом некоторых данных и предшествующего параметра, представляющего интерес , где связь между данными и параметром описывается с помощью функции правдоподобия , для получения апостериорного значения используется теорема Байеса. $X$ $\theta$

p (θ ∣ X) \propto p (X ∣ θ) p (θ)

$p(\theta \mid X) \propto p(X \mid \theta) \, p(\theta)$

Это можно сделать последовательно, когда после просмотра первой точки данных до обновляется до posterior , затем вы можете взять вторую точку данных и использовать апостериор, полученный до как ваш предыдущий , чтобы обновить его еще раз и т. Д. , $x_1$ $\theta$ $\theta'$ $x_2$ $\theta'$

Позвольте привести пример. Представьте, что вы хотите оценить среднее значение нормального распределения, и вам известна. В таком случае мы можем использовать нормально-нормальную модель. Мы предполагаем нормальный априор для с гиперпараметрами $\mu$ $\sigma^2$ $\mu$ $\mu_0,\sigma_0^2:$

\begin{aligned} X ∣ μ & \sim N o r m a l (μ, σ^{2}) \\ μ & \sim N o r m a l (μ_{0}, σ_{0}^{2}) \end{aligned}

$\begin{align} X\mid\mu &\sim \mathrm{Normal}(\mu,\ \sigma^2) \\ \mu &\sim \mathrm{Normal}(\mu_0,\ \sigma_0^2) \end{align}$

Так как нормальное распределение является сопряженным априором для нормального распределения, мы имеем решение в закрытой форме для обновления предыдущего $\mu$

\begin{aligned} E (μ^{'} | Икс) & знак равно \frac{σ^{2} μ + σ_{0}^{2} Икс}{σ^{2} + σ_{0}^{2}} \\ В a р (μ^{'} | Икс) & знак равно \frac{σ^{2} σ_{0}^{2}}{σ^{2} + σ_{0}^{2}} \end{aligned}

$\begin{align} E(\mu' \mid x) &= \frac{\sigma^2\mu + \sigma^2_0 x}{\sigma^2 + \sigma^2_0} \\[7pt] \mathrm{Var}(\mu' \mid x) &= \frac{\sigma^2 \sigma^2_0}{\sigma^2 + \sigma^2_0} \end{align}$

К сожалению, такие простые решения в замкнутой форме недоступны для более сложных задач, и вам приходится полагаться на алгоритмы оптимизации (для точечных оценок, использующих максимальный апостериорный подход) или моделирование MCMC.

Ниже вы можете увидеть пример данных:

n <- 1000
set.seed(123)
x     <- rnorm(n, 1.4, 2.7)
mu    <- numeric(n)
sigma <- numeric(n)

mu[1]    <- (10000*x[i] + (2.7^2)*0)/(10000+2.7^2)
sigma[1] <- (10000*2.7^2)/(10000+2.7^2)
for (i in 2:n) {
  mu[i]    <- ( sigma[i-1]*x[i] + (2.7^2)*mu[i-1] )/(sigma[i-1]+2.7^2)
  sigma[i] <- ( sigma[i-1]*2.7^2                  )/(sigma[i-1]+2.7^2)
}

Если вы нанесете на график результаты, вы увидите, как апостериорный приближается к оценочному значению (его истинное значение отмечено красной линией) по мере накопления новых данных.

Для получения дополнительной информации вы можете проверить эти слайды и сопрягать байесовский анализ гауссовой распределительной статьи Кевина П. Мерфи. Проверьте также, становятся ли байесовские априорные значения несущественными при большом размере выборки? Вы также можете проверить эти заметки и эту запись в блоге, чтобы ознакомиться с пошаговым введением в байесовский вывод.

— Тим
источник

Спасибо, это очень полезно. Как нам решить этот простой пример (неизвестная дисперсия, в отличие от вашего примера)? Предположим, что у нас есть предварительное распределение N ~ (5, 4), а затем мы наблюдаем 5 точек данных (8, 9, 10, 8, 7). Что будет после после этих наблюдений? Заранее спасибо. Очень признателен.

— statstudent

@Kelly, вы можете найти примеры для случаев, когда либо дисперсия неизвестна и значит известна, либо и то, и другое неизвестно в статье Википедии о сопряженных априорных значениях и ссылках, которые я предоставил в конце моего ответа. Если среднее значение и дисперсия неизвестны, это становится немного сложнее.

— Тим

μ

$\mu$

σ^{2}

$\sigma^2$

4

$P(\theta)$ $P(x \mid \theta)$

п (θ | Икс) знак равно \frac{\underset{θ}{Σ} п (Икс | θ) п (θ)}{п (Икс)}

$P(\theta \mid x) = \frac{\sum_\theta P(x \mid \theta) P(\theta)}{P(x)}$

$P(x)$

п (θ | Икс) ~ \underset{θ}{Σ} п (Икс | θ) п (θ)

$P(\theta \mid x) \sim \sum_\theta P(x \mid \theta)P(\theta)$

$\sim$

Случай сопряженных априорных значений (где вы часто получаете красивые формулы закрытых форм)

$\boldsymbol{\theta}$ $P(\boldsymbol{\theta})$ $P(\mathbf{x} \mid \boldsymbol{\theta})$ $P(\boldsymbol{\theta})$ $P(\boldsymbol{\theta} \mid \mathbf{x})$

Таблица сопряженных распределений может помочь построить некоторую интуицию (а также привести несколько поучительных примеров для проработки себя).

— Мэтью Ганн
источник

1

Это центральная проблема вычислений для анализа байесовских данных. Это действительно зависит от данных и распределения. Для простых случаев, когда все может быть выражено в замкнутой форме (например, с сопряженными априорами), вы можете напрямую использовать теорему Байеса. Самым популярным семейством методик для более сложных случаев является марковская цепь Монте-Карло. Подробности см. В любом вводном учебнике по анализу байесовских данных.

— Kodiologist
источник

Спасибо огромное! Извините, если это действительно глупый дополнительный вопрос, но в тех простых случаях, которые вы упомянули, как именно мы будем использовать теорему Байеса напрямую? Будет ли распределение, созданное средним из выборки, и дисперсия точек данных стать функцией вероятности? Большое спасибо.

— statstudent

@ Келли Опять же, это зависит от распределения. Смотрите, например, en.wikipedia.org/wiki/Conjugate_prior#Example . (Если я ответил на ваш вопрос, не забудьте принять мой ответ, нажав на флажок под стрелками для голосования.)

— Kodiologist