Может ли кто-нибудь объяснить сопряженные приоры в простейших терминах?

23

Некоторое время я пытался понять идею сопряженных априорных значений в байесовской статистике, но я просто не понимаю ее. Может ли кто-нибудь объяснить идею в простейших возможных терминах, возможно, используя в качестве примера «априор Гаусса»?

bayesian conditional-probability conjugate-prior

— Дженна Майз
источник

23

Приоритет для параметра почти всегда будет иметь какую-то конкретную функциональную форму (как правило, в терминах плотности). Допустим, мы ограничиваемся одним конкретным семейством распределений, и в этом случае выбор нашего априора сводится к выбору параметров этого семейства.

Например, рассмотрим нормальную модель . Для простоты также возьмем как известно. Эта часть модели - модель для данных - определяет функцию правдоподобия. $Y_i \stackrel{_\text{iid}}{\sim} N(\mu,\sigma^2)$ $\sigma^2$

Чтобы завершить нашу байесовскую модель, здесь нам нужен априор для . $\mu$

Как упомянуто выше, обычно мы можем указать некоторое семейство распределений для нашего априора для а затем нам нужно только выбрать параметры этого распределения (например, часто предшествующая информация может быть довольно расплывчатой - например, примерно там, где мы хотим, чтобы вероятность сконцентрировалась). а не очень специфической функциональной формы, и у нас может быть достаточно свободы для моделирования того, что мы хотим, путем выбора параметров - скажем, для соответствия предыдущему среднему значению и дисперсии). $\mu$

Если окажется, что апостериор для принадлежит к тому же семейству, что и предшествующий, то этот предшествующий элемент называется «сопряженным». $\mu$

(Что делает его сопряженным, так это то, как оно сочетается с вероятностью)

Итак, в этом случае, давайте возьмем гауссовский априор для (скажем, ). Если мы сделаем это, мы увидим, что апостериорный для также гауссовский. Следовательно, гауссовский априор был сопряженным априором для нашей модели выше. $\mu$ $\mu\sim N(\theta,\tau^2)$ $\mu$

Это все, что нужно на самом деле - если апостериор принадлежит к той же семье, что и предыдущий, это сопряженный предшественник.

В простых случаях вы можете определить конъюгат до проверки путем проверки вероятности. Например, рассмотрим биномиальную вероятность; отбрасывая константы, это выглядит как бета плотность в ; и из-за того, как объединяются степени и , он умножается на бета до того, как также получится произведение степеней и ... так что мы можем сразу увидеть из вероятности, что бета будет сопряженным предшествующим для в биномиальной вероятности. $p$ $p$ $(1-p)$ $p$ $(1-p)$ $p$

В случае Гаусса легче всего увидеть, что это произойдет, если учесть логарифмические плотности и логарифмическую вероятность; логарифмическая вероятность будет квадратичной по а сумма двух квадратичных квадратична, поэтому квадратичная логарифмическая априорная + квадратичная логарифмическая правдоподобие дает квадратичную апостериорность (каждый из коэффициентов члена высшего порядка, конечно, будет отрицательным). $\mu$

— Glen_b - Восстановить Монику
источник

9

Если ваша модель принадлежит экспоненциальному семейству , то есть если плотность распределения имеет вид

f (x | θ) = h (x) \exp {T (θ) \cdot S (x) - ψ (θ)} x \in X θ \in Θ

$f(x|\theta)=h(x)\exp\{T(\theta)\cdot S(x)-\psi(\theta)\}\qquad x\in\mathcal{X}\quad\theta\in\Theta$ относительнозаданной доминирующей меры(Лебега, подсчет и т. д.), где

t \cdot s

$t\cdot s$ обозначает скалярное произведение над

R^{d}

$\mathbb{R}^d$ и

T : X ⟶ R^{d} S : Θ ⟶ R^{d}

$T:\mathcal{X}\longrightarrow \mathbb{R}^d\qquad S:\Theta\longrightarrow \mathbb{R}^d$ измеримые функции, сопряженные априорные на

θ

$\theta$ определяются плотностями вида

π (θ | ξ, λ) = C (ξ, λ) \exp {T (θ) \cdot ξ - λ ψ (θ)}

$\pi(\theta|\xi,\lambda)=C(\xi,\lambda)\exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\}$ [относительнопроизвольно выбранной доминирующей меры

d ν

$\text{d}\nu$ на

Θ

$\Theta$ ] с

C (ξ, λ)^{- 1} = \int_{Θ} \exp {T (θ) \cdot ξ - λ ψ (θ)} d ν < \infty

$C(\xi,\lambda)^{-1}=\int_\Theta \exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\} \text{d}\nu<\infty$ и

λ \in Λ \subset R_{+}

$\lambda\in\Lambda\subset\mathbb{R}_+$ ,

ξ \in Ξ \subset λ T (X)

$\xi\in\Xi\subset \lambda T(\mathcal{X})$

Выбор доминирующей меры является определяющим для семьи приоры. Если, например, один из них сталкивается со средним нормальным правдоподобием на $\mu$ как в ответе Glen_b , выбор меры Лебега $\text{d}\mu$ в качестве доминирующей меры приводит к сопряженности нормальных априорных значений . Если вместо этого выбирают $(1+\mu^2)^{-2}\text{d}\mu$ в качестве доминирующей меры, сопряженные априоры находятся в семействе распределений с плотностями

\exp {- α (μ - μ_{0})^{2}} α > 0, μ_{0} \in R

$\exp\{-\alpha(\mu-\mu_0)^2\} \qquad\alpha>0,\ \ \mu_0\in\mathbb R$ относительно этой доминирующей меры и, таким образом, больше не являются нормальными априорами. Эта трудность по сути та же, что и при выборе конкретной параметризации вероятности и выборе меры Лебега для этой параметризации. Столкнувшись с функцией правдоподобия, в пространстве параметров не существует внутренней (или внутренней, или эталонной) доминирующей меры.

За пределами этого экспоненциального семейства не существует нетривиального семейства распределений с фиксированной поддержкой, которая допускает сопряженные априорные значения. Это является следствием леммы Дармуа-Питмана-Купмана .

— Сиань
источник

11

"в самых простых сроках?" Возможно, объяснение, которое не предполагает предварительного знания мер, было бы более полезным для ФП.

3

Увы, я боюсь, что сопряженные априорные значения не имеют смысла без какой-либо меры (хотя это лучший секрет во Вселенной).

— Сиань

6

По моему мнению, «простейшие возможные термины» открыты для интерпретации, и объяснение, в котором используется продвинутая математика, такая как теория меры, может быть в некотором смысле «простым», может быть, даже «более простым», чем объяснение, которое избегает такого механизма. В любом случае, такое объяснение может быть очень полезным для того, кто имеет необходимые знания, чтобы понять его, и безвредно включать такой ответ в список различных способов объяснить тему. Мы пишем ответы не только для OP, но и для всех будущих читателей.

— мало

1

@LBogaardt Ваша критика будет иметь больший вес, если вы сможете сослаться на один или несколько вопросов, где, по вашему мнению, этот ответ будет как по теме, так и на более подходящем уровне. Пожалуйста, имейте в виду, что «простой» не является четко определенным термином и имеет различные субъективные интерпретации. Независимо от этого, было бы недопустимо отождествлять его с «математически несложным», как предлагается в ваших комментариях.

— whuber

2

Ответ Сианя не бесполезен для меня. Я кое-что узнал.

— мало

2

Мне нравится использовать понятие «ядро» дистрибутива. Здесь вы оставляете только те части, которые зависят от параметра. Несколько простых примеров.

Нормальное ядро

p (μ | a, b) = K^{- 1} \times \exp (a μ^{2} + b μ)

$p(\mu|a,b) = K^{-1} \times \exp(a\mu^2 +b\mu)$ где

K

$K$ - «нормализующая константа»

K = \int \exp (a μ^{2} + b μ) d μ = \sqrt{\frac{π}{- a}} \exp (- \frac{b^{2}}{4 a})

$K=\int \exp(a\mu^2 +b\mu)d\mu=\sqrt{\frac{\pi}{-a}}\exp(-\frac{b^2}{4a})$ Связь со стандартными средними / дисперсионными параметрами

E (μ | a, b) = - \frac{b}{2 a}

$E(\mu|a,b)=-\frac{b}{2a}$ и

V a r (μ | a, b) = - \frac{1}{2 a}

$Var(\mu|a,b)=-\frac{1}{2a}$

Бета-ядро

p (θ | a, b) = K^{- 1} \times θ^{a} (1 - θ)^{b}

$p(\theta|a,b)=K^{-1}\times \theta^a (1-\theta)^b$ где

K = \int θ^{a} (1 - θ)^{b} d θ = B e t a (a + 1, b + 1)

$K=\int \theta^a (1-\theta)^b d\theta = Beta(a+1,b+1)$

Когда мы смотрим на функцию правдоподобия, мы можем сделать то же самое и выразить это в «форме ядра». Например с данными iid

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = Q \times f (μ)

$p(D|\mu)=\prod_{i=1}^n p(x_i|\mu)=Q\times f(\mu)$

$Q$ $f(\mu)$

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = [\prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}}] \times \prod_{i = 1}^{n} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2} - 2 x_{i} μ + μ^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2}}{2}) \times \exp (μ \sum_{i = 1}^{n} x_{i} - μ^{2} \frac{n}{2}) = Q \times \exp (a μ^{2} + b μ)

$p(D|\mu) =\prod_{i=1}^n p(x_i|\mu) =\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_i-\mu)^2}{2}) =\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\right]\times \prod_{i=1}^n \exp(-\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2-2x_i\mu+\mu^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})\times\exp(\mu\sum_{i=1}^n x_i-\mu^2\frac{n}{2}) =Q\times \exp(a\mu^2 +b\mu)$

where $a=-\frac{n}{2}$ and $b=\sum_{i=1}^n x_i$ and $Q=(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})$

This likelihood function has the same kernel as the normal distribution for $\mu$ , so a conjugate prior for this likelihood is also the normal distribution.

p (μ | a_{0}, b_{0}) = K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ)

$p(\mu|a_0,b_0)=K_0^{-1}\exp(a_0\mu^2 +b_0\mu)$ The posterior is then

p (μ | D, a_{0}, b_{0}) \propto K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ) \times Q \times \exp (a μ^{2} + b μ) = K_{0}^{- 1} \times Q \times \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ) \propto \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ)

$p(\mu|D,a_0,b_0)\propto K_0^{-1}\exp(a_0\mu^2 +b_0\mu)\times Q\times \exp(a\mu^2 +b\mu)=K_0^{-1}\times Q\times \exp([a+a_0]\mu^2 +[b+b_0]\mu)\propto\exp([a+a_0]\mu^2 +[b+b_0]\mu)$ Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

— probabilityislogic
источник

1

(+1) I appreciate the pseudo-data intuition!

— Xi'an

1

For a given distribution family $D_{lik}$ of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family $D_{pri}$ as the posterior (e.g. Beta),

then $D_{pri}$ and $D_{lik}$ are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: $\underbrace{p(\theta|x)}_{\text{posterior}} \sim \underbrace{p(x|\theta)}_{\text{likelihood}} \cdot \underbrace{p(\theta)}_{\text{prior}}$

— Thomas G.
источник

How does this explain what a conjugate prior is?

— LBogaardt

ok I'll edit that.

— Thomas G.