Предложить наборы учебных текстовых классификаторов


9

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора?

Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном количестве уже классифицированных сообщений. перед.

Мы можем использовать эту информацию, чтобы рекомендовать ему импульсы, помеченные этими классами. Но мы обнаружили, что если мы использовали предопределенный пакет слов, не относящихся к нашему контенту, вектор функций будет заполнен нулями, также категории могут не относиться к нашему контенту. поэтому по этим причинам мы попробовали другое решение, которое будет кластеризовать наш контент, а не классифицировать его.

Спасибо :)


1
Я думаю, что более подробная информация о вашей проблеме необходима прежде, чем кто-либо сможет порекомендовать набор данных.
Нил Слэйтер

3
С какой целью? Фильтрация спама? Анализ настроений? Без четкой цели очень сложно предложить набор данных.
lsdr

@lsdr Глядя на ответы, кажется, что вопрос не обязательно требует более подробной информации.
Амир Али Акбари

@AmirAliAkbari Я думаю, что они пришли после редактирования. Во всяком случае, я отказался от своего закрытого голосования.
Рубенс

Более подходящее место для этого вопроса - opendata.stackexchange.com
sheldonkreger

Ответы:


14

Некоторыми стандартными наборами данных для классификации текста являются группа 20-News, Reuters (с 8 и 52 классами) и WebKb. Вы можете найти их все здесь .


Спасибо :), я уже посещал его раньше, но обнаружил, что его классификации слабы, недостаточно абстрактны, или это может быть не связано с моим контентом
Abdelmawla


5

Существует множество наборов данных, выпущенных UC Irvine для игры здесь . Среди этих наборов данных есть несколько десятков текстовых наборов данных, которые могут помочь вам, ребята, с вашей задачей.

Это своего рода общие наборы данных, поэтому в зависимости от вашей цели они не должны использоваться в качестве единственных данных для обучения ваших моделей, иначе ваша модель - хотя она может работать - не даст качественных результатов.


1

Помимо предложений, приведенных выше, существует чрезвычайно полезный файл PDF - сравнительный анализ текстовых коллекций для задач классификации и кластеризации, который содержит различные наборы данных наряду с контрольными показателями для тестирования наших моделей. Это включает в себя 20ng Collection, Reuters и многие из предложенных выше наборов данных. Я надеюсь, что это помогает!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.