Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых ограниченных экспериментов, похоже, что стандартные тематические модели (LDA и т. Д.) Довольно плохо работают с такими данными.
Кто-нибудь знает о работе, проделанной в этой области? В этой статье рассказывается о применении LDA в Twitter, но меня действительно интересует, есть ли другие алгоритмы, которые работают лучше в контексте коротких документов.