Ответ зависит от того, принимаете ли вы симметричное или асимметричное распределение дирихле (или, технически, является ли базовая мера равномерной). Если не указано иное, большинство реализаций LDA предполагают, что распределение симметрично.
Для симметричного распределения высокое альфа-значение означает, что каждый документ, вероятно, будет содержать смесь большинства тем, а не какой-либо отдельной темы. Низкое альфа-значение налагает меньше таких ограничений на документы и означает, что более вероятно, что документ может содержать сочетание нескольких или даже только одной из тем. Аналогично, высокое бета-значение означает, что каждая тема может содержать смесь большинства слов, а не какого-либо конкретного слова, в то время как низкое значение означает, что тема может содержать смесь всего нескольких слов.
Если, с другой стороны, распределение является асимметричным, высокое альфа-значение означает, что конкретное распределение темы (в зависимости от базовой меры) более вероятно для каждого документа. Точно так же высокие бета-значения означают, что каждая тема, скорее всего, будет содержать определенное словосочетание, определенное базовой мерой.
На практике высокое альфа-значение приведет к тому, что документы будут более схожими с точки зрения того, какие темы они содержат. Высокое бета-значение также приведет к тому, что темы будут более схожими с точки зрения того, какие слова они содержат.
Таким образом, да, альфа-параметры определяют предварительные представления о разреженности / однородности темы в документах. Я не совсем уверен, что вы подразумеваете под «взаимной исключительностью тем в терминах слов».
В более общем смысле это параметры концентрации для распределения дирихле, используемые в модели LDA. Чтобы получить некоторое интуитивное понимание того, как это работает, эта презентация содержит несколько хороших иллюстраций, а также хорошее объяснение LDA в целом.
( α1, α2, . , , , αК)ты = ( ты1, у2, . , , , уК)αα ∗ u = ( α1, α2, . , , ,αК)α( α1, α2, . , , , αК)( α1, α2, . , , , αК)