Откуда берутся слова в / usr / share / dict / words?


10

/usr/share/dict/wordsсодержит много слов. Как генерируется этот список? Одинаково ли его содержимое в разных Unices? Есть ли какой-то стандарт, определяющий, что он должен содержать?

Все, что я смог найти, - это то, что в Ubuntu / Debian список происходит из пакетов wordlist , но их описания не дают подсказки о том, как списки создавались на самом деле.

Ответы:


10

Вы задаете несколько вопросов, но я думаю, что главный из них:

Есть ли какой-то стандарт, определяющий, что он должен содержать?

Насколько мне известно, нет.

Учитывая это, ваши связанные вопросы:

Как генерируется этот список? Одинаково ли его содержимое в разных Unices?

отвечают «это зависит от каждого другого Unix».

Конвенция о включении в список слов , как часть операционной системы происходит от в spell(1)утилите , которая использует его для примитивной процедуры проверки орфографии.

Эта процедура проверки орфографии описана в академической статье «Разработка списка орфографии», написанной доктором Макилрой из Bell Labs, 1982 .

Вам следует проверить диспетчер пакетов вашей операционной системы, чтобы узнать, откуда появился список правописания, как он генерируется и какие альтернативы доступны.

В Debian GNU + Linux, например:

  • /usr/share/dict/wordsФайл является символической ссылкой управляется с помощью «альтернативы» системы Debian.
  • Пакет со списком общих слов, обеспечивающий эту ссылку, является wamericanпакетом.
  • Документация пакета для wamericanсостояний, в которых его список слов происходит из проекта SCOWL (Spell Checker Oriented Word Lists) .

Можно установить много других пакетов со списком слов; у каждого из них есть поле «Обеспечивает: список слов»:

$ aptitude search '?provides(wordlist)' | wc -l
34

В разных Unix вам нужно будет увидеть систему пакетов и документацию, чтобы узнать о происхождении и альтернативах списка слов.


2
FWIW: На минимальной установке Centos 7 x64 (где отсутствует файл слов), yum install wordsмне удалось.
Wossname
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.