Некоторое время я пытался понять идею сопряженных априорных значений в байесовской статистике, но я просто не понимаю ее. Может ли кто-нибудь объяснить идею в простейших возможных терминах, возможно, используя в качестве примера «априор Гаусса»?
Некоторое время я пытался понять идею сопряженных априорных значений в байесовской статистике, но я просто не понимаю ее. Может ли кто-нибудь объяснить идею в простейших возможных терминах, возможно, используя в качестве примера «априор Гаусса»?
Ответы:
Приоритет для параметра почти всегда будет иметь какую-то конкретную функциональную форму (как правило, в терминах плотности). Допустим, мы ограничиваемся одним конкретным семейством распределений, и в этом случае выбор нашего априора сводится к выбору параметров этого семейства.
Например, рассмотрим нормальную модель . Для простоты также возьмем σ 2 как известно. Эта часть модели - модель для данных - определяет функцию правдоподобия.
Чтобы завершить нашу байесовскую модель, здесь нам нужен априор для .
Как упомянуто выше, обычно мы можем указать некоторое семейство распределений для нашего априора для а затем нам нужно только выбрать параметры этого распределения (например, часто предшествующая информация может быть довольно расплывчатой - например, примерно там, где мы хотим, чтобы вероятность сконцентрировалась). а не очень специфической функциональной формы, и у нас может быть достаточно свободы для моделирования того, что мы хотим, путем выбора параметров - скажем, для соответствия предыдущему среднему значению и дисперсии).
Если окажется, что апостериор для принадлежит к тому же семейству, что и предшествующий, то этот предшествующий элемент называется «сопряженным».
(Что делает его сопряженным, так это то, как оно сочетается с вероятностью)
Итак, в этом случае, давайте возьмем гауссовский априор для (скажем, µ ∼ N ( θ , τ 2 ) ). Если мы сделаем это, мы увидим, что апостериорный для µ также гауссовский. Следовательно, гауссовский априор был сопряженным априором для нашей модели выше.
Это все, что нужно на самом деле - если апостериор принадлежит к той же семье, что и предыдущий, это сопряженный предшественник.
В простых случаях вы можете определить конъюгат до проверки путем проверки вероятности. Например, рассмотрим биномиальную вероятность; отбрасывая константы, это выглядит как бета плотность в ; и из-за того, как объединяются степени p и ( 1 - p ) , он умножается на бета до того, как также получится произведение степеней p и ( 1 - p ) ... так что мы можем сразу увидеть из вероятности, что бета будет сопряженным предшествующим для р в биномиальной вероятности.
В случае Гаусса легче всего увидеть, что это произойдет, если учесть логарифмические плотности и логарифмическую вероятность; логарифмическая вероятность будет квадратичной по а сумма двух квадратичных квадратична, поэтому квадратичная логарифмическая априорная + квадратичная логарифмическая правдоподобие дает квадратичную апостериорность (каждый из коэффициентов члена высшего порядка, конечно, будет отрицательным).
Если ваша модель принадлежит экспоненциальному семейству , то есть если плотность распределения имеет вид
Выбор доминирующей меры является определяющим для семьи приоры. Если, например, один из них сталкивается со средним нормальным правдоподобием на как в ответе Glen_b , выбор меры Лебега в качестве доминирующей меры приводит к сопряженности нормальных априорных значений . Если вместо этого выбирают в качестве доминирующей меры, сопряженные априоры находятся в семействе распределений с плотностями
За пределами этого экспоненциального семейства не существует нетривиального семейства распределений с фиксированной поддержкой, которая допускает сопряженные априорные значения. Это является следствием леммы Дармуа-Питмана-Купмана .
Мне нравится использовать понятие «ядро» дистрибутива. Здесь вы оставляете только те части, которые зависят от параметра. Несколько простых примеров.
Нормальное ядро
Бета-ядро
Когда мы смотрим на функцию правдоподобия, мы можем сделать то же самое и выразить это в «форме ядра». Например с данными iid
where and and
This likelihood function has the same kernel as the normal distribution for , so a conjugate prior for this likelihood is also the normal distribution.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
For a given distribution family of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution family as the posterior (e.g. Beta),
then and are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note: