Ответы:
Выглядит свободно, только что попробовал, и это хорошо работает для меня.
Документы Google в настоящее время тестируют новую функцию API, которая использует оптическое распознавание символов (OCR) для изображений и PDF-файлов.
Из операционной системы Google :
Google Docs API тестирует новую функцию, которая позволяет выполнять оптическое распознавание символов на изображении. Демонстрация этой функции демонстрируется в режиме реального времени : вы можете загрузить изображение в формате JPG, GIF или PNG с высоким разрешением, которое имеет размер менее 10 МБ, а Документы Google извлекают текст и преобразуют его в новый документ. Google упоминает, что «в настоящее время операция может занимать до 40 секунд», а небольшой тест показал, что служба еще не надежна: она медленная и часто возвращает ошибки.
Результаты далеки от идеальных, и вы найдете много ошибок, но сервис бесплатный и постоянно улучшается. Вот результат распознавания для этого отсканированного документа :
Документ Google Docs можно экспортировать в различные форматы, включая HTML, OpenOffice и Word:
В соответствии с моим ответом на вопрос: Кто-нибудь знает способ программного преобразования PDF в формат docx :
Конвертируйте PDF в SVG (ghostscript сделает это) и импортируйте ...
... суть в том, что хотя Word не будет встраивать PDF, он будет встраивать SVG.
Используйте программу оптического распознавания символов, например, Omnipage Pro . Он поддерживает PDF как ввод документов и Word как вывод.
Вы также можете попробовать OCRTerminal, который предлагает бесплатный сервис на 20 страниц в месяц. У них есть Beta Desktop Client, который, кажется, доступен для использования по приглашению (вы должны связаться с ним и выразить заинтересованность).