Т.Л., др? Начните с Nuance PowerPDF Advanced.
Я оценил программное обеспечение OCR в декабре 2014 года в рамках подготовки к большому проекту - OCR на миллионах англоязычных страниц, созданных партиями. Если вы готовы потратить несколько сотен долларов, у вас есть много вариантов; пробные версии могут помочь вам, если вам нужно конвертировать всего несколько сотен страниц.
Многие программные пакеты хотят загрузить все входные файлы, сделать OCR и объединить беспорядок в один выход. ИМХО, это совершенно неправильно, я понятия не имею, кто бы этого хотел. Я искал настоящую партию: один выходной файл для каждого входного файла, автоматическая операция, не останавливайтесь ни перед чем, дайте мне подробный отчет в конце. Спойлер: я не нашел этого.
Пакеты в алфавитном порядке следуют. Цены, указанные ниже, указаны в списке, но скидок предостаточно. Возьмите мои комментарии о точности с долей соли; ваши входные данные не будут такими же, как мои входные данные, поэтому ваш пробег, безусловно, будет отличаться
ABBYY Finereader 12 Corporate: 400 долларов США. Пакетная функция называется «Диспетчер задач» и находится в меню «Инструменты». Он будет обрабатывать файлы из папки, включая подпапки; он с радостью создаст отдельный выходной файл для каждого входного файла. Кажется, он не способен сохранить иерархию входных папок; все выходные файлы были помещены в одну и ту же папку. В моих тестах точность была высокой, но все же самая низкая из перечисленных здесь пакетов.
Adobe Acrobat XI: 300 долларов. Пакетная функция называется «Распознавание текста / В нескольких файлах», которую можно найти, нажав на Инструменты (третья панель инструментов, верхняя правая часть главного экрана). Обрабатывает подпапки, по одному на каждый вход. Останавливает и выдает запрос, если находит файл, защищенный паролем. Не сохраняет входное дерево каталогов по умолчанию; можно сделать, записав вывод в ту же папку, что и ввод. Точность была довольно хорошей в моих тестах.
Nuance OmniPage Ultimate (он же v19): 500 долларов. Пакетная функция называется «DocuDirect», и это отдельная программа, которая поставляется вместе с пакетом. Он будет обрабатывать папки и подпапки; если вы выберете объекты правильно, он сохранит дерево входных каталогов в области вывода. Один выход для каждого входа. Останавливает и требует пароль для защищенного файла. Похоже, что превосходно использует преимущества многоядерных процессоров для параллельного выполнения задач. Точность была превосходной . Но стабильность пакетного процессора плохая; нечеткий документ остановит его, и он никогда не восстановится, с легкостью сорвав партию.
Nuance PowerPDF Advanced v1.1 (преемник OmniPage Ultimate): $ 150. Пакетная функция называется «Пакетный конвертер» и доступна из основной программы на вкладке «Расширенная обработка». Он будет обрабатывать папки и подпапки, сохраняя структуру ввода в выводе. Один выход для каждого входа. Будем использовать несколько ядер, но не агрессивно; это означает, что я не мог заставить его насытить многоядерный хост. Точность отличная , такая же хорошая или лучшая, как у OmniPage. Плохие или нечеткие файлы не приводили к зависанию. Пакетный процессор записывает ( шокирует ) текстовый файл журнала в выходной каталог.
ReadIris Corporate 14: 600 долларов. Пакетная функция вызывается элементом «Пакетное распознавание текста», которое открывается нажатием кнопки «Из файлов» на главном экране. Он будет обрабатывать папки и подпапки, по одному выводу для каждого ввода, и по умолчанию структура выходного каталога соответствует структуре входного каталога. Останавливает и требует пользовательский ввод на неверный файл; обрабатывает без дальнейших жалоб все защищенные документы, очевидно, путем распознавания изображения. Точность была очень хорошей, наравне с Acrobat.
На моем настольном компьютере (только двухъядерный) с выбранными мне входами каждый пакет обрабатывал страницу не менее 3 секунд; некоторые взяли больше. Может быть в состоянии справиться с этим на машине с большим количеством ядер.
Есть много ошибок, обязательно спланируйте их: недействительные PDF-файлы (некоторые пакеты останавливаются), PDF-файлы, защищенные паролем (некоторые пакеты останавливаются, другие конвертируются в любом случае!) И повернутые страницы (альбомная, а не книжная). Если вы хотите, чтобы пакет выполнялся до конца, вы должны подготовить область ввода для этих пакетов очень, очень тщательно. Изучите функцию печати в PDF пакета GhostScript, чтобы узнать, как снять защиту с PDF-файлов.
Запуск больших пакетов может привести к истощению памяти и проблемам с зависанием, даже если это не должно (а, возможно, утечки памяти). Если вы вообще занимаетесь какой-либо автоматизацией, то после факта того, что на самом деле произошло, возникает большая проблема: какие документы не удалось обработать, какие не удалось обработать во время обработки и т. Д. "лог-файл".
Наконец, получить поддержку, даже в качестве платящего клиента, довольно сложно для этих пакетов для массового рынка. Например, я пожаловался одному уважаемому представителю службы поддержки клиентов о пакете (который должен остаться безымянным), висящим для некоторых больших входов. Я ждал 36 часов, прежде чем сдаться :). Они сладко предложили ограничить размер партии до 300 документов. Это было совершенно неприемлемо для меня, но эй, он получил этот билет поддержки, черт побери, быстро? И это все, что имеет значение, верно? Вздох.
НТН