Где я могу получить разнообразный образец текста? [закрыто]

14

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за помощью в справочный центр .

Закрыто 6 лет назад .

Я пытаюсь собрать статистику по последовательности символов или слов, используемых на английском языке, для использования в программном проекте.

Где я могу взять большое количество (несколько ГБ было бы неплохо) английского простого текста, охватывающего различные темы?

research statistics

— JSideris
источник

3

Как-то я чувствую, что вам особенно понравятся эти иллюстрации

— Яннис

@Yannis Rizos Это потрясающе: D.

— JSideris

@ Яннис Ризос о, они симпатичные ...

— sevenseacat

@YannisRizos Это было закрыто несколько лет назад. Наконец-то я приступил к редактированию вопроса, чтобы он был более конкретным и лучшим для формата QA. Могу ли я получить его незамеченным сейчас? (Вы единственный человек в этой теме, который все еще является модератором).

— JSideris

19

Вы можете использовать дампы данных Википедии . Дамп данных XML для английской Википедии , которая включает в себя текущие изменения , составляет лишь около 31 Гб, так что я бы сказал , что это будет хорошим началом для вашего исследования. Дамп данных довольно большой, поэтому вы должны рассмотреть возможность извлечения текстов из XML с помощью SAX-парсера. WikiXMLJ - удобный API Java, настроенный для Википедии.

И тогда, конечно, всегда есть дампы данных Stack Exchange . Последняя одна не включает в себя все государственные без бета - Stack Exchange , сайты & соответствующие сайты Мета вплоть до сентября 2011 года Но, естественно сообщения Стек Обмен сосредоточены на объеме каждого сайта, так что, вероятно , не так обобщена , как вы хотите. Мета-посты немного более общие, поэтому вы можете рассмотреть их в дополнение к Википедии.

Я не думаю, что вы найдете что-то лучше, особенно в текстовом формате. Несколько открытых наборов данных доступны через Data Hub , но я думаю, что дамп данных английской Википедии очень близок к тому, что вы ищете.

— Яннис
источник

1

это некоторые классные ресурсы.

— Hanzolo

Стековые, хотя и обширные, будут охватывать очень узкое поле дискурса (по необходимости), поэтому они могут не очень хорошо обобщать.

— января

Боже мой, эти файлы огромны! Как только я найду способ открыть их и отфильтровать все xml-хрени, это должно прекрасно работать. Благодарность!

— JSideris

1

@Bizorke Рад, что я мог помочь. Когда вы закончите, вы должны обновить вопрос со ссылкой на ваше исследование.

— Яннис

5

У Google есть коллекция наборов данных, которые они используют для определения вероятностей n-грамм. Изучение их биграмных (2-граммовых) наборов данных должно дать вам хорошую картину. Есть много других корпораций, для которых эти анализы уже были сделаны.

— jonsca
источник

3

Я просто писал то же самое.

— jcmeloni

@jcmeloni Великие умы!

— января

5

Проект Гутенберг имеет большой корпус текстов на английском языке, уже в текстовом виде.

Project Gutenberg предлагает более 42 000 бесплатных электронных книг: выбирайте среди бесплатных книг epub, бесплатных книг kindle, загружайте их или читайте в Интернете.

Мы предлагаем высококачественные электронные книги: все наши электронные книги ранее были опубликованы добросовестными издателями. Мы оцифровали и усердно корректировали их с помощью тысяч добровольцев ...

— Майкл Кон
источник

1

Я думал о Project Gutenberg, но я не смог найти концентрированный дамп данных. А для включения книги срок ее действия должен истечь, и, как правило, это означает, что с момента первой публикации книги прошло 50–70 лет. Поэтому я не думаю, что как набор данных Project Gutenberg является представителем языка, используемого сегодня.

— Яннис

1

Если вы хотите что-то «представительное для языка, который используется сегодня», попробуйте комментарии на YouTube. Грустно, но правда.

— Йорг Миттаг

@ JörgWMittag - ой. Что меня действительно беспокоит, так это то, как ты не ошибаешься.

— Майкл Кохне

@ Jörg W Mittag Это возможно, но тогда некоторые слова, специфичные для youtube, будут встречаться очень часто, например: YOU UT TU UB BE или еще хуже: FA AK KE AN ND GA AY

— JSideris

1

Для статистики, вы, вероятно, смотрите "Частота биграмм на английском языке". Посмотрите на: Wiki-Bigram Stats

Что касается поиска большого текста, обратите внимание, что частота будет смещена в зависимости от типа текста. Например, если вы проанализируете адреса, вы получите разные результаты от анализа газетных рассказов. Если вы просто хотите протестировать, вы можете использовать PDF-файл любой книги (лучше не математика, не программирование или медицинская книга) и преобразовать его в текст, а затем запустить свои тесты. Вы также можете конвертировать газетные веб-страницы в текст и работать над ними.

— Без шансов
источник

2

Да, я понимаю, что результаты будут предвзятыми. Мне нужен ресурс, который охватывает как можно больше предметов. Я подумывал о том, чтобы скачать кучу электронных книг, главная проблема - преобразовать их в текст. Но не мешало бы посмотреть статистику биграмм (я не знал, как называются двухбуквенные комбинации).

— JSideris

Спасибо за ваш комментарий. Вы можете конвертировать PDF в текст, используя Файл -> Сохранить как текст в ADOBE PDF Reader. Эта ссылка также может иметь значение: data-compression.com/english.html

— NoChance

@EmmadKareem OP запрашивает несколько ГБ текста. Вы серьезно предлагаете ему использовать Adobe Reader для извлечения текста из PDF-файлов?

— Яннис

@YannisRizos, я не заметил, что несколько ГБ было обязательным требованием. Если это так, есть лучшие инструменты, которые могут быть использованы для этой цели. Спасибо за указание на это.

— NoChance