У меня Linux Mint 17.2 x32 Cinnamon. Возможно, эти шаги будут работать и в Ubuntu 14.04 x32.
- Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот снимок экрана от synaptic:
языковые пакеты Tesseract в Synaptic
Использование Tesseract
ВАРИАНТ 1 - в командной строке откройте терминал, затем перейдите в папку, в которой вы храните файлы изображений (jpg, png), и выполните команду:
а) конвертировать все файлы изображений в текст
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Чтобы объединить все текстовые файлы в один, запустите команду cat *.txt >> all.txt
б) конвертировать все файлы изображений в файлы hocr (открыть с помощью Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
ВАРИАНТ 2 - GUI
а) Установите gImageReader и используйте его
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
б) Второе заявление - VietOCR. Фактическая версия 4.0, поэтому скачайте VietOCR-4.0.zip
Распакуйте файлы и откройте VietOCR.jar с помощью Java:
Откройте VietOCR с помощью Java.
Если у вас не установлена Java, вы можете установить ее из репозитория или установить официальную Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Я рекомендую VietOCR, потому что он позволяет вам OCR PDF-файлы, массовое преобразование также вариант.