Как я могу извлечь текст из изображений?

Я говорю не о отсканированных файлах, а о разнообразных садовых изображениях, например, когда вы фотографируете классную доску с высоким разрешением на уроке, и она хорошо написана от руки; или когда вы фотографируете страницу из книги рецептов и хотите рецепт в текстовом формате.

Любое бесплатное и открытое программное обеспечение для этого?

Я попробовал тессеракт, и результаты были ужасны.

software-recommendation images ocr

— Strapakowsky
источник

Мне нужен OCR, который поддерживает бенгальский и английский одновременно.

— Алхелал

Ответы:

Акт извлечения текста из изображений называется, OCRи в Ubuntu есть вики-страница, посвященная OCR . С этой страницы:

Доступные инструменты OCR

Репозитории Ubuntu Universe содержат следующие инструменты OCR:

gocr - командная строка OCR
fuzzyocr - плагин spamassassin для проверки вложений изображений
libhocr0 - иврит OCR
ocrad - программа оптического распознавания символов
ocrfeeder - Система анализа документов и система оптического распознавания символов
ocropus - анализ документов и система распознавания текста
тессеракт-OCR

Мультивселенные репозитории Ubuntu также содержат:

клинопись - многоязычная система распознавания текста

Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (PPA добавляет код: ppa: alex-p / notesalexp). Если вы никогда не использовали PPA, проверьте, как добавить программное обеспечение из PPA .

изменить: как показано в комментарии Клара OCR тоже существует, но он застрял на Харди, и их сайт 2009 года, как последнее обновление.

— Rinzwind
источник

Есть ли у вас опыт использования любого из них для описанных мной примеров? Я стал немного скептически относиться к обычным инструментам OCR для них. Номер 7 в списке - тот, который я попробовал, и он был просто ужасен.

— Страпаковски

Если я не забуду, я тоже попробовал gocr, с такими же ужасными результатами. Если вы попытались с успехом любой из них, какой синтаксис вы использовали? Спасибо.

— Страпаковски

Никак нет! Я никогда не беспокоился об оптическом распознавании символов: D В поисках свежего

— мяса

Я ошибаюсь, если говорю, что успешное использование OCR требует знания процесса и тщательной настройки для соответствия сканируемому изображению? Таким образом, если я прав, плохие результаты могут быть связаны с пользователем, а не с программным обеспечением.

— NN

OCRработает лучше всего, если вы знаете, как создается изображение, и вы очень хорошо разбираетесь в использовании используемого вами программного обеспечения (последнее - причина, по которой я никогда не удосужился его использовать).

— Rinzwind

tesseract-ocrбыл бы великим по сравнению со всеми другими. Для установки запустите команду sudo apt-get install tesseract-ocr.

Использование есть tesseract filename.jpg output.txt.

Выше команда сгенерирует output.txt.

Вы можете выбрать подходящий язык. В этом случае вам необходимо установить tesseract-ocr-LANGпакет, LANGв котором указан трехбуквенный код языка ISO 639-2 . Прямо сейчас у вас есть 123 языка на репо 18.04. Тогда используйте, например:

tesseract mySpanishText.jpg output -l spa

— Судхир Белагали
источник

Эй, так что это работает, но не является точным, или я бы сказал, точнее на 80-85%. Как пример для этого изображения: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , оно испортило знак $, а также большинство скобок. Квадратные, круглые, фигурные, все скобки являются проблемой, они никогда не извлекаются должным образом. Знаете ли вы что-нибудь исправить?

— Милан Чхеда