Рекомендации по программному обеспечению оптического распознавания символов?


15

Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы по их бумажным версиям, но текст в электронных книгах / документах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.

Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если те для Windows намного лучше, пожалуйста, дайте мне знать.

Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.

Спасибо и всего наилучшего!

Пожалуйста, ограничьте одно программное обеспечение на ответ

Ответы:


10

Тессеракт OCR Установите Tesseract OCR

Оригинальный движок был разработан еще в конце 80-х годов HP и IBM, но оказался одним из лучших программ для распознавания глаз, которые я использовал. Недавно он подвергся множеству обновлений движка и стал одним из наиболее полных инструментов OCR на рынке. Превосходя по сравнению с большинством других инструментов распознавания (с чем-то в 90 процентах соответствия текста), он может легко преобразовать стандартный тип документа лицом к тексту.

Ниже приведен пример:

tesseract ScannedDocument.png out

Будет производить файл с именем out.txt


Благодарность! Я не видел, чтобы Tesseract поддерживал вывод pdf. Ты знаешь об этом?
StackExchange для всех

@ Тим, изначально я не верю, что Tesseract поддерживает множество форматов ввода / вывода. Однако, как отмечается в ответе JanC, gscan2pdf использует Tesseract для распознавания текста и, как следует из названия, поддерживает вывод в формате PDF.
Тим Литл

Обратите внимание, что OCR расшифровывается как Оптическое распознавание символов: en.wikipedia.org/wiki/Optical_character_recognition
Хосе Гомес,

8

Другой проект, который должен быть в состоянии сделать это - gscan2pdf

sudo apt-get install gscan2pdf

Этот проект также может использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.


3

Я не знаю никакого распознавания текста для Ubuntu, но для Windows есть тот, который имеет необходимые вам функции. То есть ABBYY FineReader это страница но она не бесплатная


1
Я использовал FineReader точно так, как хочет Тим ​​(для открытия защищенных PDF-файлов)
Extender

3

Бесплатное решение существует в операции РЕПО, CunieFormYAGF , как Gnome интерфейс для него)


Благодарность! Поддерживает ли CunieForm pdf в качестве форматов ввода и вывода? Я не видел этого на его странице в Википедии и на ее официальной странице.
StackExchange для всех

Возможно нет, но разбить PDF на серию TIFF - простая задача в любом случае :)
Extender

3

Похоже, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию, чтобы знать, где какой текст был найден.


1

Adobe Acrobat (не читатель, а не бесплатное приложение) способен распознавать отсканированный документ PDF и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбирать и копировать. К сожалению, мне не удобно проверять, где именно находится эта функция в пользовательском интерфейсе Acrobat, но я успешно использовал ее пару раз для той же цели, о которой вы упоминали.

И да, это программное обеспечение Windows, а не Linux, но, согласно базе данных приложения Wine HQ, оно работает под Wine .


1

Лучшее программное обеспечение для оптического распознавания текста обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880, установленный в моем офисе, может выводить отличные файлы OCR с поддержкой PDF быстрее и проще, чем любая известная мне настольная программа. Положите книгу в лоток (не привязан), выберите свой почтовый адрес, нажмите зеленую кнопку.

Большинство PDF-файлов OCR, которые вы можете найти в сети, относятся к аналогичным машинам. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).




Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.