Отказ от ответственности: я никогда не работал с этим дистрибутивом раньше. Этот ответ основан на этой статье в Википедии и моей интерпретации.
Распределение Дирихле является многомерным распределением вероятностей, схожим по свойствам с распределением Бета.
PDF определяется следующим образом:
{x1,…,xK}∼1B(α)∏i=1Kxαi−1i
с , и .K≥2xi∈(0,1)∑Ki=1xi=1
Если мы посмотрим на тесно связанный бета-дистрибутив:
{x1,x2(=1−x1)}∼1B(α,β)xα−11xβ−12
мы можем видеть, что эти два распределения одинаковы, если . Итак, давайте сначала основываемся на этой интерпретации, а затем обобщим до .K=2K>2
В байесовской статистике бета-распределение используется в качестве сопряженного априора для биномиальных параметров (см. Бета-распределение ). Приоритет может быть определен как некоторые предварительные знания об и (или в соответствии с дистрибутивом Дирихле и ). Если какие - то биномиальные пробы , то есть успехи и неудача, заднее распределение затем следующий образом : и . (Я не буду решать это, так как это, вероятно, одна из первых вещей, которые вы узнаете с помощью байесовской статистики).αβα1α2ABα1,pos=α1+Aα2,pos=α2+B
Таким образом, бета-распределение представляет некоторое апостериорное распределение по и , которое можно интерпретировать как вероятность успехов и неудач соответственно в биномиальном распределении. И чем больше у вас данных ( и ), тем уже будет это апостериорное распределение.x1x2(=1−x1)AB
Теперь мы знаем, как работает распределение для , мы можем обобщить его для работы с многочленным распределением вместо биномиального. Это означает, что вместо двух возможных результатов (успех или неудача) мы допустим результатов (см., Почему оно обобщается до бета / бинома, если ?). Каждый из этих результатов будет иметь вероятность , которая равна 1, как и вероятности.K=2KK=2Kxi
αiЗатем берет на себя роль, аналогичную и в бета-дистрибутиве, как и ранее для и обновляется аналогичным образом.α1α2xi
Итак, теперь, чтобы перейти к вашим вопросам:
Как alphas
влияет на распределение?
Распределение ограничено ограничениями и . определить , какие части - мерного пространства получить максимальную массу. Вы можете видеть это на этом изображении (не встраивая это здесь, потому что я не являюсь владельцем изображения). Чем больше данных имеется в последнем (используя эту интерпретацию), тем выше , поэтому тем более вы уверены в значении или вероятностях для каждого из результатов. Это означает, что плотность будет более концентрированной.xi∈(0,1)∑Ki=1xi=1αiK∑Ki=1αixi
Как alphas
нормализуется?
Нормализация распределения (убедившись, что интеграл равен 1) проходит через член :B(α)
B(α)=∏Ki=1Γ(αi)Γ(∑Ki=1αi)
Опять же, если мы посмотрим на случай то увидим, что нормализующий фактор такой же, как в бета-распределении, в котором использовалось следующее:K=2
B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)
Это распространяется на
B(α)=Γ(α1)Γ(α2)…Γ(αK)Γ(α1+α2+⋯+αK)
Что происходит, когда альфы не являются целыми числами?
Интерпретация не изменяется для , но, как вы можете видеть на изображении, которое я связывал ранее , если то масса распределения накапливается по краям диапазона для . с другой стороны, должно быть целым числом, а .α i < 1 x i K K ≥ 2αi>1αi<1xiKK≥2