Понимание бета-конъюгата перед байесовским выводом о частоте


11

Ниже приведен отрывок из «Болстадского введения в байесовскую статистику» .

Я читаю т

Для всех вас, экспертов, это может быть тривиально, но я не понимаю, как автор приходит к выводу, что нам не нужно делать какую-либо интеграцию для вычисления апостериорной вероятности для некоторого значения . Я понимаю второе выражение, которое представляет собой пропорциональность и откуда взяты все термины ( вероятность х Приор) . Кроме того, я понимаю, нам не нужно беспокоиться о знаменателе, поскольку только числитель прямо пропорционален. Но переходя к третьему уравнению , не забываем ли мы о знаменателе правила Байеса? Куда это делось? И значение, вычисляемое гамма-функциями, разве это не константа? Не исключают ли константы в теореме Байеса?π


5
Существует только одна возможная константа, а именно та, которая делает функцию плотностью вероятности.
Сиань

Ответы:


10

Дело в том, что мы знаем, что апостериор пропорционален, и так получилось, что нам не нужно делать интегрирование, чтобы получить (постоянный) знаменатель, потому что мы признаем, что распределение с функцией плотности вероятности пропорционально (например, апостериорный) - это бета-версия. Поскольку нормализующая константа для такого бета-файла pdf равна , мы получаем задний pdf без интегрирования. И да, нормализующая константа в теореме Байеса - это константа (с учетом наблюдаемых данных и предполагаемого априора), такая же, как нормализующая константа для апостериорной плотности.Γ ( α + β )xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)


8

Настройка

У вас есть эта модель: Плотности, для которых и, в частности, обратите внимание, что

pbeta(α,β)x|pbinomial(n,p)
f(p)=1B(α,β)pα1(1p)β1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

Неявная версия

Теперь. Заднее распределение пропорционально априорному умноженному на вероятность . Мы можем игнорировать константы (то есть вещи, которые не являются ), давая: fgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Он имеет «форму» бета-распределения с параметрами и , и мы знаем, какой должна быть соответствующая нормализующая константа для бета-распределения с этими параметрами: . Или, с точки зрения гамма-функций, Другими словами, мы можем сделать немного лучше, чем пропорциональное отношение, без лишних усилий и перейти к равенству: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Таким образом, можно использовать знания о структуре бета-распределения, чтобы легко восстановить выражение для апостериорного, а не проходить через некоторую грязную интеграцию и тому подобное.

Это как бы обходит полный апостериор, неявно отменяя нормализующие константы совместного распределения, что может сбивать с толку.

Явная версия

Вы могли бы также разобраться с процедурой, которая может быть более ясной.

Это на самом деле не так уж много дольше. Обратите внимание, что мы можем выразить совместное распределение как и предельное распределение как

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Таким образом, мы можем выразить апостериор, используя теорему Байеса, через это то же самое, что мы получили ранее.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1

7

Основные пометки

Чтобы сделать ответ, данный @ Björn, немного более явным и в то же время более общим, мы должны помнить, что мы пришли к теореме Байеса из

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Байес Терем)

где представляет наблюдаемые данные и наш неизвестный параметр, о котором мы хотели бы сделать вероятностные выводы - в случае вопроса параметр является неизвестной частотой . Давайте не будем сейчас волноваться, говорим ли мы о векторах или скалярах, чтобы все было просто.Xθπ

Маргинализация в непрерывном случае приводит к

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

где совместное распределение равно как мы видели выше. Это постоянная величина, поскольку после «интегрирования» параметра он зависит только от постоянных членов .p(X,θ)likelihood×prior

Поэтому мы можем переформулировать теорему Байеса как

p(θ|X)=Const.×p(X|θ)×p(θ) сConst.=1p(X)=1p(X|θ)×p(θ)dθ

и , таким образом , приходим к обычной форме пропорциональности из байесовской теоремы .

Приложение к проблеме рукой

Теперь мы готовы просто включить то, что мы знаем, поскольку в вопросе имеет видlikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

где , и где собирает постоянные члены из вероятности бинома и бета до.a=a+yb=b+nyA=1B(a,b)(ny)

Теперь мы можем использовать ответ, заданный @ Björn, чтобы найти, что это интегрирует с бета-функцией умноженной на совокупность постоянных членов так чтоB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Обратите внимание, что любой постоянный член в совместном распределении всегда будет аннулирован, поскольку он будет появляться в знаменателе и знаменателе одновременно (см. Ответ @jtobin), поэтому нам действительно не нужно беспокоиться.

Таким образом, мы признаем, что наше апостериорное распределение на самом деле является бета-распределением, где мы можем просто обновить параметры априора и чтобы прийти к апостериорному. Вот почему бета-версия, предшествующая распространению, называется сопряженной .a=a+yb=b+ny


Это рассуждение похоже на неявную версию jtobin. Мы рассмотрим только те части вероятного времени до, которые содержат параметр, и собираем все остальное в константу нормализации. Таким образом, мы рассматриваем интеграцию только как последний шаг, который является законным, потому что константы отменяются, как показал jtobin в его явной версии.
ГВР
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.