У меня есть несколько отсканированных документов в формате PDF, и я хочу иметь возможность искать их. Как я могу это сделать?
По сути, я должен OCR PDF, а затем смешать извлеченный текст обратно в новый PDF. Я безуспешно пробовал несколько различных решений (в том числе найденных в разделе Добавление информации OCR в PDF ).
- pdfocr (который дает мне эту проблему: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (о котором центр программного обеспечения говорит, что это плохой пакет, и я не должен его устанавливать)
- OCRfeeder (в центре программного обеспечения) хорошо экспортирует в odt, но не реагирует при экспорте в pdf.
- Gscan2pdf экспортирует полностью черное (но доступное для поиска) изображение, как описано в этом обсуждении .
- Я не думаю, что программа просмотра Pdfxchange может обрабатывать файлы на 500 и более страницах.
Есть ли программный пакет, о котором я не знаю? Или скрипт, который делает это?
pdf2searchablepdf
. Это зависит от tesseract
. Это работает хорошо. Супер прост в использовании. Посмотреть здесь. askubuntu.com/a/1187881/327339