Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст:
- Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы)
- Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1», «текстовый абзац»)
- Там будут сотни категорий
Каков наилучший подход к созданию такой системы? Я рассмотрел несколько различных вариантов, и ниже приведен список возможных решений. Является ли Word2Vec / NN лучшим решением на данный момент?
- Рекурсивная нейросетевая сеть, снабженная усредненными данными Word2Vec
- RNTN и вектор абзаца ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF используется в сети Deep Belief
- TF-IDF и логистическая регрессия
- Мешок слов и наивная байесовская классификация