OCR в системах Linux [закрыто]

14

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост .

Закрыто 2 года назад .

Я всегда обнаруживал, что технология OCR отстает в системах с открытым исходным кодом. Я также смотрел проект Ocropus с самого детства. Я попробовал то, что слышал, это лучший механизм распознавания текста для Linux, Tesseract , и обнаружил, что его очень не хватает для деловых документов. Существуют ли другие более перспективные реализации OCR? Как насчет еще более обнадеживающей цели интерпретации почерка? Что возможно в * nix системах в этой области?

opensource-projects ocr documents

— jjclarkson
источник

1

Должно ли это быть перенесено в softwarerecs?

— Джефф Шаллер

@ Джефф, вероятно, нет, учитывая, что ему почти семь лет. С тех пор многое произошло. Некоторые из них в OCR ... ;-)

— roaima

4

Тессеракт

По состоянию на 2018 год лучшее доступное программное обеспечение OCR с открытым исходным кодом - это Tesseract 4 (бета) с его новой моделью оптического распознавания символов в нейронной сети LSTM . Его производительность распознавания намного лучше, чем у предыдущей модели распознавания, использованной в версии 3.

Пример (создайте файл PDF output.pdfс текстовым слоем для отсканированного немецкого документа):

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

Распечатать распознанный текст на стандартный вывод:

$ tesseract --oem 1 -l deu page page-0001.png stdout

Список установленных языков:

$ tesseract --list-langs

Поддержка многих языков / скриптов доступна в виде загружаемых обученных наборов данных , например, существует даже набор данных для Fraktur.

С новой моделью LSTM Tesseract черпает вдохновение из исследовательского проекта OCRopus .

Версия 3 Тессеракта работает относительно плохо даже на входных изображениях хорошего качества, т. Е. Часто ложно обнаруживает отдельные символы в пикселях пыли (вне любого текстового контекста) и легко вводит односимвольные ошибки в известных словах.

клинопись

Производительность Cuneiform OCR не так уж и плоха, но она не поддерживается активно (последний выпуск в 2011 году, версия 1.1), легко падает и имеет некоторые другие проблемы:

Ошибки сегментации с различными пакетами и выпусками
его алгоритм компоновки просто нарушен, т. е. в документах с одним столбцом абзацы часто случайно перемешиваются
это не ошибка на неизвестных опциях

Вы можете отключить алгоритм макета следующим образом:

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

( -lуказывает язык исходного документа)

ocrad

$ ocrad -F utf8 image-0001

Текст печатается по умолчанию в стандартный вывод.

В деловом документе пропущено подчеркнутое слово, а cuneiform / tesseract / gocr - нет.

GOCR

$ gocr image-0001

Текст печатается по умолчанию в стандартный вывод.

аппаратные средства

Sane имеет очень хорошую поддержку для многих сканеров с автоматической подачей документов (ADF), например, для Avision и Fujitsu .

В состав Sane входит программа scanimageкомандной строки, которую вы можете использовать для создания сценариев сканирования по сценарию (см., Например, мой adf2pdf.pyсценарий).

— maxschlepzig
источник

Я попробовал клинопись. Это хорошо работает, если вам нужно распознать отсканированное изображение (не фотографии). Я использовал Yagf в качестве графического интерфейса.

— Сергей

3

Я нашел похожий вопрос в StackOverflow, и Asprise OCR SDK , один из связанных коммерческих продуктов, имеет версию для Linux.

— Ларри Смитмиер
источник

Хотя эта ссылка может ответить на вопрос, лучше включить сюда основные части ответа и предоставить ссылку для справки. Ответы, содержащие только ссылки, могут стать недействительными, если связанная страница изменится. - Из обзора

— Томас

1

@ Том ссылка является единственным возможным ответом, так как ссылка указывает на конкретный инструмент в соответствии с запросом ОП. Не все ответы только на ссылки плохие. Это дает название определенной части программного обеспечения и ссылку на его веб-страницу. Даже если ссылка не работает, вы все равно сможете найти ее по названию.

— Тердон

1

Есть несколько популярных инструментов командной строки OCR:

Тессеракт ( ReadMe , FAQ ) (Python)

Также доступно для: Tesseract .NET , Tesseract iOS

Механизм оптического распознавания текста, который был разработан в лабораториях HP между 1985 и 1995 годами ... а теперь и в Google. Тессеракт, вероятно, является наиболее точным из доступных механизмов OCR с открытым исходным кодом.

Использование:
```
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
```
Пример: сделать существующий PDF доступным для поиска (OCR) через командную строку / скрипт
GOCR

Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR может использоваться с разными интерфейсами, что позволяет очень легко портировать на разные ОС и архитектуры. Он может открывать много разных форматов изображений, и его качество улучшается с каждым днем.
OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)

Система оптического распознавания текста, ориентированная на использование крупномасштабного машинного обучения для решения проблем в анализе документов, с возможностью анализа разметки с помощью разметки, распознавания с помощью разметки, статистического моделирования естественного языка и многоязычных возможностей

Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макетов.

OCRopus - это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных и массовых преобразований документов. Мы ожидаем, что это также будет отличной системой распознавания текста для многих других приложений.
Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

Tesseract - это механизм распознавания текста с открытым исходным кодом на C ++. Tessnet2 - это сборка .NET, предоставляющая очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (например, tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.

Другие уже предложили: ABBYY CLI OCR для Linux , Asprise OCR .