Полиномиальная модель Дирихле с гиперприорным распределением по параметрам концентрации


10

Я постараюсь описать имеющуюся проблему как можно более общей. Я моделирую наблюдения как категориальное распределение с вектором вероятности параметра тета.

Затем я предполагаю, что вектор параметров тета следует предварительному распределению Дирихле с параметрами .α1,α2,,αk

Можно ли также наложить гиперприорное распределение по параметрам ? Должно ли это быть многомерное распределение, такое как распределение по категориям и по Дирихле? Мне кажется, что альфа всегда позитивен, поэтому должен работать гамма-гиперприор.α1,α2,,αk

Не уверен, пытался ли кто-нибудь подобрать такие (возможно) сверхпараметрические модели, но мне кажется разумным думать, что альфа не следует фиксировать, а скорее исходить из гамма-распределения.

Пожалуйста, постарайтесь предоставить мне некоторые рекомендации, идеи о том, как я могу попробовать такой подход на практике.


Да, это возможно, и это было сделано. В целом это называется байесовской иерархической моделью. Предпочтительно, этот априор должен учитывать возможные зависимости.

@ Procrastinator спасибо. Есть ли у вас ссылки на хорошие байесовские иерархические модели, имеющие дело с такого рода моделями? Спасибо.
Dnaiel

@Procrastinator: Удалось ли вам получить какие-либо документы / отчеты или, в идеале, документы для практического применения, касающиеся байесовских иерархических моделей?
Жубарб

Ответы:


12

Я не думаю, что это «сверхпараметрическая» модель вообще. Я бы сказал, что, поставив априор над параметрами Дирихле, вы менее настойчивы в отношении любого конкретного результата. В частности, как вы, вероятно, знаете, для симметричных распределений дирихле (т.е. ) установка дает большую вероятность разреженных многочленных распределений, в то время как дает большую априорную вероятность гладкие полиномиальные распределения.α1=α2=...αKα<1α>1

В тех случаях, когда нет сильных ожиданий для разреженных или плотных многочленных распределений, размещение гиперприора над распределением Дирихле дает вашей модели дополнительную гибкость при выборе между ними.

Изначально у меня появилась идея сделать это из этой статьи . Используемый ими гиперприор немного отличается от того, что вы предлагаете. Они отбирают вектор вероятности из дирихле, а затем масштабируют его по ничьей из экспоненты (или гаммы). Таким образом, модель

βDirichlet(1)λExponential()θDirichlet(βλ)

Дополнительный Дирихле просто для того, чтобы избежать навязывания симметрии.

Я также видел, как люди используют только Gamma hyper для Dirichlet в контексте скрытых марковских моделей с многочленным распределением излучения, но я не могу найти ссылку. Кроме того, кажется, что я столкнулся с похожими гиперссылками, используемыми в тематических моделях.


Спасибо отличный ответ! У меня есть один короткий вопрос В, позволит ли эта модель различаться для каждой из тэт? У меня есть этот вопрос, так как параметр lambda является общим для всех тэтов, поэтому они все используют один и тот же параметр масштабирования, поэтому мне было интересно, в случае избыточного рассеивания модель обеспечит такую ​​гибкость. Ваша интуиция / знания здесь высоко ценится! Спасибо!
Dnaiel

@Dnaiel, скажите мне, если я неправильно понимаю ваш вопрос, но да, даже с симметричным предварительным дирихле, скажем, , извлечения из этого распределения будут приводить к разреженным векторам. Под редким я подразумеваю, что если вы построите вектор как гистограмму, он будет очень пиковым, а не плоским. В приведенной выше модели параметры Дирихле не являются симметричными из-за того, что параметр берется из гиперприора Дирихле. Dirichlet(0.2,0.2,0.2,0.2)θθβ
Джерад

4

Чтобы продемонстрировать решение этой гиперприорной задачи, я реализовал иерархическую модель гамма-Дирихле-полиномиальная в PyMC3. Гамма для Dirichlet указывается и отбирается в блоге Теда Даннинга .

Модель, которую я реализовал, может быть найдена в этом Gist, но также описана ниже:

Это байесовская иерархическая (объединяющая) модель для рейтингов фильмов. Каждый фильм можно оценивать по шкале от нуля до пяти. Каждый фильм оценивается несколько раз. Мы хотим найти сглаженное распределение оценок для каждого фильма.

Мы собираемся изучить предварительное распределение (гиперприор) на основе рейтингов фильмов по данным. Каждый фильм будет иметь свой собственный априор, сглаженный этим априором верхнего уровня. Еще один способ думать об этом заключается в том, что априорные рейтинги для каждого фильма будут сокращены до группового или объединенного распределения.

Если фильм имеет нетипичное распределение рейтинга, такой подход приведет к уменьшению рейтинга до чего-то более соответствующего ожидаемому. Кроме того, этот извлеченный предыдущий может быть полезен для загрузки фильмов с небольшим количеством оценок, чтобы позволить им быть значимым по сравнению с фильмами со многими оценками.

Модель выглядит следующим образом:

γk=1...KGamma(α,β)

θm=1...MDirichletM(cγ1,...,cγK)

zm=1...M,n=1...NmCategoricalM(θm)

где:

  • К = 6K количество уровней рейтинга фильмов (например, подразумевает рейтинги 0, ..., 5)K=6
  • M количество фильмов оценивается
  • мNm количество оценок для фильмаm
  • α=1/K , чтобы коллекция гамма-лучей действовала как экспоненциальный коэффициент
  • βПараметр для экспоненциального верхнего уровня
  • c параметр концентрации, диктующий силу верхнего уровня до
  • kγk верхнего уровня для уровня рейтингаk
  • Кθm уровень фильма до уровня рейтинга (многомерный с размерностью = )K
  • n mzmn оценка для фильмаnm

1

Это прямое байесовское сопряженное предварительное моделирование. Естественное продолжение бета-биномиальной модели. Хороший ресурс для этого может быть из книги . И задняя часть также является Dirichlet и, следовательно, моделирование из Dirichlet даст необходимые резюме


1
Спасибо. Я знаком с такой книгой, отличный справочник. Я попытался разобраться в этом, но они не предоставляют такую ​​многочленовую иерархическую модель напрямую, но у них есть масса хороших идей, которые можно применить.
Dnaiel

1
Дирихле-полиномиал является сопряжённой моделью, но опер спросил о (гипер-) опережении параметров Дирихле. Для распределения Дирихле не существует стандартного сопряженного априора, хотя на самом деле он должен существовать , так как он является членом экспоненциального семейства.
Джерад
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.