В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в журналах, которые многие современные системы распознавания сущностей называют современными. тренировался на.
Любые рекомендации? До сих пор я смог найти только 50k токенов из твиттера, опубликованного здесь .