Где найти большой текстовый корпус? [закрыто]


16

Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?


Эта тема, кажется, не по теме. См. Meta.stats.stackexchange.com/questions/1032/… .
whuber

Этот вопрос, по-видимому, не по теме, потому что речь идет о поиске набора данных, а не о статистическом анализе
Питер Флом - Восстановить Монику

2
Ну, это неловко, потому что эти вопросы и ответы действительно полезны.
Сайд-шоу Боб

@guaka, пожалуйста, не ударяйте такие старые сообщения за такие незначительные правки, особенно сообщение, которое закрыто. Это правда, что наше предпочтение стиля не в том, чтобы иметь «спасибо», а в чем-то таком незначительном, мы бы просто оставили это.
gung - Восстановить Монику

Ответы:



6

А как насчет викиновостей ? Вот последний дамп базы данных, который я смог найти: http://dumps.wikimedia.org/enwikinews/20111120/

Возможно, вам нужна версия «Все страницы, только текущие версии».


Это больше не работает.
vy32

ссылка на дамп больше не работает. набор данных по регионам мал и устарел
HappyCoding

6

Reuters Text Corpus является классикой в ​​этой области, и можно найти здесь


Это не самый интересный (или разнообразный) корпус. Лицензия также ограничительна относительно Wikileaks (общедоступные документы США) или викиновостей.
Аридделл

@ariddell Я согласен, но он обычно используется во вводных примерах НЛП, и он достаточно большой, чтобы быть полезным в обучении, но достаточно мал, чтобы его можно было проанализировать на хорошем ноутбуке.
richiemorrisroe



Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.