Что способствует альфа- и бета-гиперпараметрам при распределении скрытого Дирихле?

19

У LDA есть два гиперпараметра, настройка их меняет навязанные темы.

Что альфа- и бета-гиперпараметры влияют на LDA?

Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается?

Почему они гиперпараметры, а не просто параметры?

topic-model lda parameter

— Alvas
источник

вот хороший частичный ответ: stats.stackexchange.com/a/37444/156252

— зеленоватый

16

Распределение Дирихле является многомерным распределением. Мы можем обозначить параметры Дирихле как вектор размером K вида ~ , где - вектор размера параметров, а . $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Теперь LDA использует некоторые конструкции, такие как:

документ может иметь несколько тем (из-за этой множественности нам нужен дистрибутив Дирихле); и есть распределение Дирихле, которое моделирует это соотношение
слова могут также принадлежать нескольким темам, если вы рассматриваете их вне документа; так что здесь нам нужен еще один Dirichlet для моделирования этого

Предыдущие два являются дистрибутивами, которые вы на самом деле не видите из данных, поэтому они называются скрытыми или скрытыми.

Теперь в байесовском выводе вы используете правило Байеса для определения апостериорной вероятности. Для простоты, скажем, у вас есть данные и у вас есть модель для этих данных, управляемая некоторыми параметрами . Чтобы вывести значения для этих параметров, в полном байесовском выводе вы выведете апостериорную вероятность этих параметров, используя правило Байеса с Обратите внимание, что здесь приходит $x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ posterior probability = \frac{likelihood \times prior probability}{marginal likelihood}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$ , Это ваше первоначальное мнение об этом распределении и является параметром предыдущего распределения. Обычно это выбирается таким образом, чтобы иметь сопряженное априорное (таким образом, распределение апостериорных совпадает с распределением априорного) и часто кодировать некоторые знания, если они у вас есть, или иметь максимальную энтропию, если вы ничего не знаете ,

Параметры априора называются гиперпараметрами . Так, в LDA оба тематических распределения, поверх документов и над словами, также имеют соответствующие априорные значения, которые обычно обозначаются альфа и бета, и потому что параметры предыдущих распределений называются гиперпараметрами.

Теперь о выборе приоры. Если вы построите некоторые распределения Дирихле, вы заметите, что если отдельные параметры имеют одно и то же значение, pdf симметричен в симплексе, определяемом значениями , который является минимумом или максимумом для pdf в центре. $\alpha_k$ $x$

Если все имеют значения ниже единицы, то максимум находится в углах $\alpha_k$

или может, если все значения одинаковы и больше 1, максимум будет найден в центре, как $\alpha_k$

Легко видеть, что если значения для не равны, симметрия нарушается, и максимум будет найден вблизи больших значений. $\alpha_k$

Кроме того, обратите внимание, что значения параметров априора дают гладкие pdf-значения распределения, так как значения параметров близки к 1. Поэтому, если у вас есть большая уверенность в том, что что-то четко распределено известным вам способом с высокой степенью достоверности, чем Значения, далекие от 1 в абсолютном значении, должны использоваться, если у вас нет такого рода знаний, чем значения, близкие к 1, закодируют этот недостаток знаний. Легко понять, почему 1 играет такую роль в распределении Дирихле из формулы самого распределения.

Другой способ понять это состоит в том, чтобы увидеть, что предшествующее кодирование предшествует знанию. В то же время вы можете подумать, что априор закодирует некоторые ранее просмотренные данные. Эти данные не были просмотрены самим алгоритмом, они были просмотрены вами, вы чему-то научились и можете предварительно моделировать в соответствии с тем, что вы знаете (выучили). Таким образом, в предыдущих параметрах (гиперпараметрах) вы также кодируете, насколько большой этот набор данных вы видели априори, потому что сумма может быть такой же, как и размер этого более или менее мнимого набора данных. Таким образом, чем больше предыдущий набор данных, тем больше достоверность, чем больше значений вы можете выбрать, тем острее поверхность приближается к максимальному значению, что также означает меньше сомнений. $\alpha_k$ $\alpha_k$

Надеюсь, это помогло.

— rapaio
источник

Мы дома / надеемся, что то же самое о поддержке текс! : D

— Рубенс

11

Предполагая симметричные распределения Дирихле (для простоты), низкое альфа-значение придает больший вес тому, чтобы каждый документ состоял только из нескольких доминирующих тем (тогда как высокое значение вернет много более относительно доминирующих тем). Точно так же низкое значение бета придает большее значение тому, чтобы каждая тема состояла только из нескольких доминирующих слов.

— Алиреза
источник