Почему распределение Дирихле является приоритетным для многочленного распределения?


36

В алгоритме модели темы LDA я видел это предположение. Но я не знаю, почему выбрал дистрибутив Дирихле? Я не знаю, можем ли мы использовать равномерное распределение по многочлену в паре?


5
Равномерное распределение является частным случаем распределения Дирихле.
Stumpy Джо Пит

Ответы:


60

Распределение Дирихле является сопряженным априором для многочленного распределения. Это означает, что если предыдущим распределением полиномиальных параметров является Dirichlet, то заднее распределение также является распределением Dirichlet (с параметрами, отличающимися от параметров предыдущего). Преимущество этого состоит в том, что (а) апостериорное распределение легко вычислить и (б) в некотором смысле можно количественно определить, насколько наши убеждения изменились после сбора данных.

Можно, конечно, обсудить, являются ли это вескими причинами для выбора конкретного априора, поскольку эти критерии не связаны с фактическими априорными убеждениями ... Тем не менее, сопряженные априорные значения популярны, поскольку они часто достаточно гибки и удобны в использовании по причинам, указанным выше. ,

For the special case of the multinomial distribution, let (p1,,pk) be the vector of multinomial parameters (i.e. the probabilities for the different categories). If

(p1,,pk)Dirichlet(α1,,αk)
prior to collecting the data, then, given observations (x1,,xk) in the different categories,
(p1,,pk)|(x1,,xk)Dirichlet(α1+x1,,αk+xk).

The uniform distribution is actually a special case of the Dirichlet distribution, corresponding to the case α1=α2==αk=1. So is the least-informative Jeffreys prior, for which α1==αk=1/2. The fact that the Dirichlet class includes these natural "non-informative" priors is another reason for using it.


So we choose Dirichlet distribution for those benefits.
ColinBinWang

1
+1: You may want to explicitly say that the likelihood is necessarily Dirichlet, which is why the posterior distribution is easy to compute.
Neil G

18

In addition rather than contradiction to Måns T's answer, I simply point out that there is no such thing as "the prior" in Bayesian modelling! The Dirichlet distribution is a convenient choice because of (a) conjugacy, (b) computing, and (c) connection with non-parametric statistics (since this is the discretised version of the Dirichlet process).

However, (i) whatever prior you put on the weights of the multinomial is a legitimate answer at the subjective Bayes level and (ii) in case of prior information being available there is no reason it simplifies into a Dirichlet distribution. Note also that mixtures and convolutions of Dirichlet distributions can be used as priors.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.