Я ищу автономный инструмент с поддержкой сценариев, который делает доступным для поиска существующий файл PDF, запустив на нем OCR, заменив исходный файл без возможности поиска на версию с возможностью поиска, и может запускаться без присмотра.
Например, www.pdfscannerapp.com - делает именно то, что мне нужно, но это только графический интерфейс - не поддерживает скрипты.
Мне известно, что Evernote делает файлы PDF доступными для поиска, но они остаются доступными для поиска только в Evernote.
Я не ищу идеальное распознавание текста, даже умеренно приемлемое распознавание текста подходит, но я бы предпочел небольшую утилиту, а не громоздкий пакет программного обеспечения.
(Мне известен похожий, но другой вопрос по AD: в поисках программного обеспечения для сканирования или преобразования в PDF с возможностью поиска и подписью - однако мне не нужно подписывать или заполнять PDF-файлы, и мое требование заключается в том, чтобы решение было пригодным для сценариев)
РЕДАКТИРОВАТЬ:
1) Несколько утилит позволяют извлекать структурированный текст, однако для того, чтобы его можно было извлечь, текст должен быть там; Я в основном имею в виду PDF-файлы, которые являются растровыми растровыми изображениями, как в случае с обычными PDF-файлами, созданными сканерами.
2) Я не обязательно ищу бесплатное решение, и я был бы более чем рад заплатить за хорошую утилиту, которая просто делает то, что мне нужно, но я не ищу громоздких приложений с миллионом функций, которые включают функцию OCR, но чья стоимость не оправдывает покупку их только для функциональности OCR.
3) Как указано выше, я не ищу идеальное OCR, просто умеренно приемлемое OCR. К сожалению, по моему опыту, tesseract действительно ниже этого порога. Я определяю «умеренно приемлемый» OCR, который может, скажем, OCR оплатить коммунальные услуги, чтобы хотя бы номер счета (номер клиента) распознавался правильно.
РЕДАКТИРОВАТЬ: «сценарий» или «автоматизируемый», то есть, может быть запущен автоматически и запускаться без участия человека.