Набор данных для распознавания именованных объектов в неформальном тексте

В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в журналах, которые многие современные системы распознавания сущностей называют современными. тренировался на.

Любые рекомендации? До сих пор я смог найти только 50k токенов из твиттера, опубликованного здесь .

dataset nlp

— Мэдисон Мэй
источник

Рекомендую спросить на opendata.stackexchange.com

— Air

@ Мэдисон май. Вы нашли набор данных? Я ищу что-то подобное. Благодарю.

— ахоффер

Я должен был обойтись без твиттера из У. Вашингтона (ссылка на оригинал).

— Мэдисон, май

К вашему сведению Корпус помеченного текста (английские газеты или любой помеченный текст)

— Франк Дернонкур

есть какой-нибудь связанный хороший аннотированный английский корпус?

— Ачьюта нанда саху

Ответы:

Насколько я понимаю, это свойства, которые вы ищете в наборе данных:

Текстовые данные
Это должно быть неформально, то есть иметь опечатки, сленг, и в основном что-то не профессионально отредактированное
Что-то иное, чем Twitter (я не виню вас, Twitter - полезный, но в то же время чрезмерно используемый пример источника данных в текстовом майнинге)

Вот несколько рекомендаций:

Электронные письма от корпуса SpamAssassin - обратите внимание, что доступны как наборы «ветчина» (не спам), так и наборы данных спама
набор данных microblogPCU из UCI, который представляет собой данные, извлеченные из микроблогов пользователей Sina Weibo. Обратите внимание, что необработанные текстовые данные представляют собой смесь китайского и английского языков (можно выполнить машинный перевод китайского языка, отфильтровать только английский или использовать его). как есть)
Amazon Commerce рассматривает набор данных от UCI
В наборе данных bag-o-words попробуйте использовать электронные письма Enron
Набор данных двадцати групп новостей
Это хорошая коллекция смс спама
Вы всегда можете очистить (извлечь) свои собственные текстовые данные из Интернета; Я не уверен , какой язык или статистический пакет вы используете, но пакеты XPath на основе доступны в R ( rvest, scrapeR, и т.д.) и Python для достижения этой цели

— Hack-R,
источник

Есть ли какие-либо из этих наборов данных с именованными объектами? Я считаю, что это то, что искал OP.

— мистер Фил

Проверьте это:

Хранилище тестовых доменов для извлечения информации: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( зеркало )

Ссылка обновлена:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
источник

Пожалуйста, обновите эти ссылки, так как ни одна из них больше не работает.

— мистер Фил

Некоторые из источников, которые я использовал:

Классический CONLL Corpus: Набор данных CONLL
Один источник Kaggle, который стоит попробовать: Kaggle NER Corpus
Выпуск 5.0 OntoNotes: Примечания OntoNotes
Задача распознавания биологических объектов: биологические объекты
Другой набор данных, связанных с электронной почтой: Набор данных электронной почты Enron

Я думаю, что эти наборы данных будут очень полезны для вашей задачи

— Гьян Ранджан
источник