Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?
Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?
Ответы:
А как насчет викиновостей ? Вот последний дамп базы данных, который я смог найти: http://dumps.wikimedia.org/enwikinews/20111120/
Возможно, вам нужна версия «Все страницы, только текущие версии».
Reuters Text Corpus является классикой в этой области, и можно найти здесь
http://endb-consolidated.aihit.com/datasets.htm содержит 10 000 компаний с текстовыми описаниями
Если свежесть не проблема, вы можете попробовать
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
и есть много других подобных наборов данных в infochimp в зависимости от вашего бюджета.
С уважением, Энди.
Если вам нужны предварительно вычисленные n-граммы, вы можете попробовать архив книг Google: