Я хотел бы отметить, поскольку это один из лучших запросов Google по данной теме: скрытое распределение дирихле (LDA), иерархические процессы дирихле (HDP) и иерархическое скрытое распределение дирихле (hLDA) - все это разные модели.
LDA моделирует документы как смеси дирихле с фиксированным количеством тем, выбранных пользователем в качестве параметра модели, которые, в свою очередь, представляют собой смеси слов дирихле. Это создает плоскую, мягкую вероятностную группировку терминов в темы и документов в темы.
HDP моделирует темы как смеси слов, во многом как LDA, но вместо того, чтобы документы представляли собой смеси фиксированного числа тем, число тем генерируется процессом дирихле, в результате чего число тем также является случайной величиной. «Иерархическая» часть имени относится к другому уровню, добавляемому к генеративной модели (процесс дирихле, создающий количество тем), а не к самим темам - они все еще остаются плоскими кластеризациями.
hLDA, с другой стороны, представляет собой адаптацию LDA, которая моделирует темы как смеси нового, отдельного уровня тем, взятых из дистрибутивов дирихле.а не процессы. Он по-прежнему рассматривает количество тем как гиперпараметр, т. Е. Не зависит от данных. Разница в том, что кластеризация теперь иерархическая - она изучает кластеризацию самого первого набора тем, давая более общие, абстрактные отношения между темами (и, следовательно, словами и документами). Думайте об этом, как о кластеризации обмена стеками по математике, естественным наукам, программированию, истории и т. Д., В отличие от кластеризации науки о данных и перекрестной проверки в абстрактной теме статистики и программирования, которая разделяет некоторые понятия, скажем, с разработкой программного обеспечения, но с разработкой программного обеспечения. обмен кластеризован на более конкретном уровне с обменом информатики, и сходство между всеми упомянутыми обменами проявляется не так сильно, как в верхнем слое кластеров.