Может ли кто-нибудь объяснить сопряженные приоры в простейших терминах?


23

Некоторое время я пытался понять идею сопряженных априорных значений в байесовской статистике, но я просто не понимаю ее. Может ли кто-нибудь объяснить идею в простейших возможных терминах, возможно, используя в качестве примера «априор Гаусса»?

Ответы:


23

Приоритет для параметра почти всегда будет иметь какую-то конкретную функциональную форму (как правило, в терминах плотности). Допустим, мы ограничиваемся одним конкретным семейством распределений, и в этом случае выбор нашего априора сводится к выбору параметров этого семейства.

Например, рассмотрим нормальную модель . Для простоты также возьмем σ 2 как известно. Эта часть модели - модель для данных - определяет функцию правдоподобия.Yя~н.о.р.N(μ,σ2)σ2

Чтобы завершить нашу байесовскую модель, здесь нам нужен априор для .μ

Как упомянуто выше, обычно мы можем указать некоторое семейство распределений для нашего априора для а затем нам нужно только выбрать параметры этого распределения (например, часто предшествующая информация может быть довольно расплывчатой ​​- например, примерно там, где мы хотим, чтобы вероятность сконцентрировалась). а не очень специфической функциональной формы, и у нас может быть достаточно свободы для моделирования того, что мы хотим, путем выбора параметров - скажем, для соответствия предыдущему среднему значению и дисперсии).μ

Если окажется, что апостериор для принадлежит к тому же семейству, что и предшествующий, то этот предшествующий элемент называется «сопряженным».μ

(Что делает его сопряженным, так это то, как оно сочетается с вероятностью)

Итак, в этом случае, давайте возьмем гауссовский априор для (скажем, µ N ( θ , τ 2 ) ). Если мы сделаем это, мы увидим, что апостериорный для µ также гауссовский. Следовательно, гауссовский априор был сопряженным априором для нашей модели выше.μμ~N(θ,τ2)μ

Это все, что нужно на самом деле - если апостериор принадлежит к той же семье, что и предыдущий, это сопряженный предшественник.

В простых случаях вы можете определить конъюгат до проверки путем проверки вероятности. Например, рассмотрим биномиальную вероятность; отбрасывая константы, это выглядит как бета плотность в ; и из-за того, как объединяются степени p и ( 1 - p ) , он умножается на бета до того, как также получится произведение степеней p и ( 1 - p ) ... так что мы можем сразу увидеть из вероятности, что бета будет сопряженным предшествующим для р в биномиальной вероятности.пп(1-п)п(1-п)п

В случае Гаусса легче всего увидеть, что это произойдет, если учесть логарифмические плотности и логарифмическую вероятность; логарифмическая вероятность будет квадратичной по а сумма двух квадратичных квадратична, поэтому квадратичная логарифмическая априорная + квадратичная логарифмическая правдоподобие дает квадратичную апостериорность (каждый из коэффициентов члена высшего порядка, конечно, будет отрицательным).μ


9

Если ваша модель принадлежит экспоненциальному семейству , то есть если плотность распределения имеет вид

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
относительнозаданной доминирующей меры(Лебега, подсчет и т. д.), гдеts обозначает скалярное произведение надRd и
T:XRdS:ΘRd
измеримые функции, сопряженные априорные наθ определяются плотностями вида
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[относительнопроизвольно выбранной доминирующей меры dν наΘ ] с
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
иλΛR+ ,ξΞλT(X)

Выбор доминирующей меры является определяющим для семьи приоры. Если, например, один из них сталкивается со средним нормальным правдоподобием на μ как в ответе Glen_b , выбор меры Лебега dμ в качестве доминирующей меры приводит к сопряженности нормальных априорных значений . Если вместо этого выбирают (1+μ2)2dμ в качестве доминирующей меры, сопряженные априоры находятся в семействе распределений с плотностями

exp{α(μμ0)2}α>0,  μ0R
относительно этой доминирующей меры и, таким образом, больше не являются нормальными априорами. Эта трудность по сути та же, что и при выборе конкретной параметризации вероятности и выборе меры Лебега для этой параметризации. Столкнувшись с функцией правдоподобия, в пространстве параметров не существует внутренней (или внутренней, или эталонной) доминирующей меры.

За пределами этого экспоненциального семейства не существует нетривиального семейства распределений с фиксированной поддержкой, которая допускает сопряженные априорные значения. Это является следствием леммы Дармуа-Питмана-Купмана .


11
"в самых простых сроках?" Возможно, объяснение, которое не предполагает предварительного знания мер, было бы более полезным для ФП.

3
Увы, я боюсь, что сопряженные априорные значения не имеют смысла без какой-либо меры (хотя это лучший секрет во Вселенной).
Сиань

6
По моему мнению, «простейшие возможные термины» открыты для интерпретации, и объяснение, в котором используется продвинутая математика, такая как теория меры, может быть в некотором смысле «простым», может быть, даже «более простым», чем объяснение, которое избегает такого механизма. В любом случае, такое объяснение может быть очень полезным для того, кто имеет необходимые знания, чтобы понять его, и безвредно включать такой ответ в список различных способов объяснить тему. Мы пишем ответы не только для OP, но и для всех будущих читателей.
мало

1
@LBogaardt Ваша критика будет иметь больший вес, если вы сможете сослаться на один или несколько вопросов, где, по вашему мнению, этот ответ будет как по теме, так и на более подходящем уровне. Пожалуйста, имейте в виду, что «простой» не является четко определенным термином и имеет различные субъективные интерпретации. Независимо от этого, было бы недопустимо отождествлять его с «математически несложным», как предлагается в ваших комментариях.
whuber

2
Ответ Сианя не бесполезен для меня. Я кое-что узнал.
мало

2

Мне нравится использовать понятие «ядро» дистрибутива. Здесь вы оставляете только те части, которые зависят от параметра. Несколько простых примеров.

Нормальное ядро

p(μ|a,b)=K1×exp(aμ2+bμ)
где K - «нормализующая константа» K=exp(aμ2+bμ)dμ=πaexp(b24a) Связь со стандартными средними / дисперсионными параметрамиE(μ|a,b)=b2a иVar(μ|a,b)=12a

Бета-ядро

p(θ|a,b)=K1×θa(1θ)b
где K=θa(1θ)bdθ=Beta(a+1,b+1)

Когда мы смотрим на функцию правдоподобия, мы можем сделать то же самое и выразить это в «форме ядра». Например с данными iid

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

Qf(μ)

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.