Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст:

Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы)
Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1», «текстовый абзац»)
Там будут сотни категорий

Каков наилучший подход к созданию такой системы? Я рассмотрел несколько различных вариантов, и ниже приведен список возможных решений. Является ли Word2Vec / NN лучшим решением на данный момент?

Рекурсивная нейросетевая сеть, снабженная усредненными данными Word2Vec
RNTN и вектор абзаца ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
TF-IDF используется в сети Deep Belief
TF-IDF и логистическая регрессия
Мешок слов и наивная байесовская классификация

— Шанкар
источник

Можете ли вы уточнить, какие категории? Нужно ли будет уметь обрабатывать новые категории и / или невидимые слова? Требования относительно редких терминов и невидимых категорий помогут при разработке системы.

— НБартли

Спасибо @NBartley. Невидимые слова также будут с высокой вероятностью. Входные параметры будут сгенерированы пользователем, поэтому вероятность появления новых невидимых слов будет очень высокой. Категории будут определены, но нам нужно будет со временем расширять список категорий. Спасибо

— Шанкар

Вы должны проверить sense2vec тоже arxiv.org/abs/1511.06388 . В двух словах, это вложение слов в сочетании с тегами части речи. Сообщается, что он сделал вложение слов более точным, устраняя неоднозначность омонимов. Было бы интересно посмотреть, улучшит ли это также производительность в задачах классификации.

— Wacax

1) Макс-энтропия (логистическая регрессия) на векторах TFIDF является хорошей отправной точкой для многих задач классификации НЛП.

2) Word2vec определенно стоит попробовать и сравнить с моделью 1. Я бы предложил использовать вариант Doc2Vec для просмотра предложений / абзацев.

Куок Ле и Томас Миколов. Распределенные представления предложений и документов. http://arxiv.org/pdf/1405.4053v2.pdf

У Gensim (python) есть хорошая модель Doc2vec.

— rushimg
источник

Спасибо @rushimg. Если категории тесно связаны, то есть параграф текста, который используется в качестве входных данных, содержит большое количество общих слов, какой из двух подходов будет лучше при понимании контекста и различении между ними?

— Шанкар

Я бы использовал модель Doc2Vec из-за того, что она снимает предположение о сумме слов модели max-ent. Если tf-idf используется в качестве функций в модели max-ent, это также уменьшит влияние обычных слов. Я думаю, что попробовать оба метода и настроить их было бы лучшим способом действий.

— rushimg