Лучший и самый простой выход - pypdfocr
это не менять PDF. pypdfocr - ссылка на модуль Python здесь.
pypdfocr your_document.pdf
В конце у вас будет другой, your_document_ocr.pdf
как вы хотите, с возможностью поиска текста. Приложение не меняет качество изображения. Немного увеличивает размер файла, добавляя оверлейный текст.
Я думаю, что команда довольно проста, что она не нуждается в графическом интерфейсе. Возможно установка pypdfocr немного более многословна:
sudo apt install tesseract-ocr
pip install pypdfocr
Обновление 3 ноября 2018 года:
pypdfocr
больше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за незанятости. ocrmypdf
( модуль выполняет знакомую работу и может использоваться следующим образом:
ocrmypdf in.pdf out.pdf
Установить:
pip install ocrmypdf
или же
apt install ocrmypdf