2
Текстовая категоризация: объединение различных видов функций
Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в тестовом наборе, почти 100% в тренировочном наборе). Большой проблемой являются невидимые слова …