Тематические модели для коротких документов

14

Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых ограниченных экспериментов, похоже, что стандартные тематические модели (LDA и т. Д.) Довольно плохо работают с такими данными.

Кто-нибудь знает о работе, проделанной в этой области? В этой статье рассказывается о применении LDA в Twitter, но меня действительно интересует, есть ли другие алгоритмы, которые работают лучше в контексте коротких документов.

— Мартин О'Лири
источник

2

Twitter является особенно сложным набором данных для моделирования тем не только из-за небольшого размера «документов», но и из-за типа текста. Люди, как правило, используют различные короткие текстовые сообщения, что делает выявление совпадений еще сложнее.

— Ник

См. Список хороших статей и соответствующие исходные коды для моделирования темы в Твиттере

— NQD

7

Это поздний ответ, но он может быть полезен для других людей, ищущих соответствующие исследования и инструменты для решения этой проблемы:

Вейвей Го из Колумбии реализовал код для моделирования коротких текстовых тем. Он описал реализацию в статье «Моделирование предложений в скрытом пространстве» ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), а код доступен здесь: http: // www .cs.columbia.edu / ~ Вэйвэй / code.html
Хотя это не тематическое моделирование, если у вас есть задача классификации, включающая короткие фрагменты текста, вы можете использовать LibShortText. Из описания их веб-сайта

«LibShortText - это инструмент с открытым исходным кодом для классификации и анализа коротких текстов. Он может обрабатывать, например, заголовки, вопросы, предложения и короткие сообщения ...»

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
источник

6

Хотя я не очень знаком с его работой, я знаю, что Джейкоб Эйзенштейн проделал работу по анализу текста и графическим моделям в данных Твиттера. В частности, в данной статье описывается применение тематического моделирования в данных Твиттера и микроблогах.

Изменить: на самом деле после прочтения бумаги немного больше, они утверждают:

Тем не менее, среднее сообщение в Твиттере составляет всего шестнадцать слов токенов, что слишком мало для традиционного моделирования темы; вместо этого мы собрали все сообщения от данного пользователя в один документ.

Так что, возможно, эта статья не очень поможет, но, возможно, другие публикации Эйзенштейна могут привести вас в правильном направлении.

— Junier
источник

6

Недавняя статья под названием « Модель предметной темы для короткого текста » (WWW13) достигла определенного прогресса в этой теме, и вот ее код

— Сяохуй Ян
источник

2

Я подтверждаю, что BiTerm LDA довольно хорошо работал для моделирования коротких текстовых высказываний (3-8 слов) и последующей классификации.

— Владислав Довгальец