Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы по их бумажным версиям, но текст в электронных книгах / документах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.
Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если те для Windows намного лучше, пожалуйста, дайте мне знать.
Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.
Спасибо и всего наилучшего!
Пожалуйста, ограничьте одно программное обеспечение на ответ