Тессеракт
По состоянию на 2018 год лучшее доступное программное обеспечение OCR с открытым исходным кодом - это Tesseract 4 (бета) с его новой моделью оптического распознавания символов в нейронной сети LSTM . Его производительность распознавания намного лучше, чем у предыдущей модели распознавания, использованной в версии 3.
Пример (создайте файл PDF output.pdf
с текстовым слоем для отсканированного немецкого документа):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Распечатать распознанный текст на стандартный вывод:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Список установленных языков:
$ tesseract --list-langs
Поддержка многих языков / скриптов доступна в виде загружаемых обученных наборов данных , например, существует даже набор данных для Fraktur.
С новой моделью LSTM Tesseract черпает вдохновение из исследовательского проекта OCRopus .
Версия 3 Тессеракта работает относительно плохо даже на входных изображениях хорошего качества, т. Е. Часто ложно обнаруживает отдельные символы в пикселях пыли (вне любого текстового контекста) и легко вводит односимвольные ошибки в известных словах.
клинопись
Производительность Cuneiform OCR не так уж и плоха, но она не поддерживается активно (последний выпуск в 2011 году, версия 1.1), легко падает и имеет некоторые другие проблемы:
Вы можете отключить алгоритм макета следующим образом:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
указывает язык исходного документа)
ocrad
$ ocrad -F utf8 image-0001
Текст печатается по умолчанию в стандартный вывод.
В деловом документе пропущено подчеркнутое слово, а cuneiform / tesseract / gocr - нет.
GOCR
$ gocr image-0001
Текст печатается по умолчанию в стандартный вывод.
аппаратные средства
Sane имеет очень хорошую поддержку для многих сканеров с автоматической подачей документов (ADF), например, для Avision и Fujitsu .
В состав Sane входит программа scanimage
командной строки, которую вы можете использовать для создания сценариев сканирования по сценарию (см., Например, мой adf2pdf.py
сценарий).