Акт извлечения текста из изображений называется, OCR
и в Ubuntu есть вики-страница, посвященная OCR . С этой страницы:
Доступные инструменты OCR
Репозитории Ubuntu Universe содержат следующие инструменты OCR:
- gocr - командная строка OCR
- fuzzyocr - плагин spamassassin для проверки вложений изображений
- libhocr0 - иврит OCR
- ocrad - программа оптического распознавания символов
- ocrfeeder - Система анализа документов и система оптического распознавания символов
- ocropus - анализ документов и система распознавания текста
- тессеракт-OCR
Мультивселенные репозитории Ubuntu также содержат:
- клинопись - многоязычная система распознавания текста
Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (PPA добавляет код: ppa: alex-p / notesalexp). Если вы никогда не использовали PPA, проверьте, как добавить программное обеспечение из PPA .
изменить: как показано в комментарии Клара OCR тоже существует, но он застрял на Харди, и их сайт 2009 года, как последнее обновление.