Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора?
Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном количестве уже классифицированных сообщений. перед.
Мы можем использовать эту информацию, чтобы рекомендовать ему импульсы, помеченные этими классами. Но мы обнаружили, что если мы использовали предопределенный пакет слов, не относящихся к нашему контенту, вектор функций будет заполнен нулями, также категории могут не относиться к нашему контенту. поэтому по этим причинам мы попробовали другое решение, которое будет кластеризовать наш контент, а не классифицировать его.
Спасибо :)