Оптическое распознавание символов (OCR) - это процесс преобразования изображений текста в текст, которым можно управлять с помощью текстовых процессоров и т. Д.
Как извлечь текст из PDF, который не был создан с индексом? Это весь текст, но я не могу ничего искать или выбирать. Я использую Kubuntu, а у Okular нет этой функции.
Сегодня я получил PDF от нашего поставщика, и он содержал несколько напечатанных и отсканированных страниц с подписями и т. Д. Я открыл его в Acrobat Reader DC. Но, к моему удивлению, текст из явно отсканированных изображений можно было выбрать и скопировать как текст. Смотрите скриншот: Очевидно, за этим стоит некоторое …
Это обсуждалось год назад здесь: Пакетное распознавание текста для многих PDF-файлов (еще не распознано)? Есть ли способ пакетной обработки документов OCR PDF, которые еще не были распознаны? Это, я думаю, текущее состояние дел, связанных с двумя проблемами: Пакетное распознавание PDF Windows Acrobat - это самый простой движок OCR, который будет …
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Супер пользователя. Закрыто 4 года назад . У меня есть PDF отсканированной книги. Я ищу бесплатное программное обеспечение, которое выполнит OCR, а затем предоставит возможность сохранить его …
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Супер пользователя. Закрыто 4 года назад . Много раз я сталкивался с растровыми изображениями, в которых не было ничего, кроме текстовых абзацев, поэтому я искал способ …
Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?
Я давно ищу в Google, но не могу найти ответ на свой вопрос. У меня есть нежелательные слои распознавания текста в документе, который я недавно сканировал с помощью Adobe Acrobat. Он не был правильно распознан, и я хочу отредактировать некоторую информацию, но OCR создает необходимую информацию для удаления. Я преобразовал …
Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я подумал, что было бы замечательно хранить всю информацию в базе данных и получать ее из …
Этот PDF был создан Abbyy Finereader 10: http://ebooks.zeitr.org/from_abbyy.pdf Вы можете скопировать и вставить первое предложение и получить этот (очень хороший) текстовый результат: Der »Bund Deutscher Gymnastik-Schulleiter« wurde am 20. November 1955 anläßlich einer Zusammenkunft der Leiterinnen und Leiter der privaten deutschen Gymnastik-Ausbildungsstätten gegründet. После некоторой обработки с Ghostscript 9.02 (64-битная …
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Супер пользователя. Закрыто 5 лет назад . Я использую Google Desktop Search (я в Vista), и не все мои файлы PDF распознаются в моей папке архива. …
Я использовал SimpleOCR , который имеет хороший графический интерфейс для исправления ошибок. К сожалению, он делает много ошибок! (и страдает от других ошибок и ограничений) С другой стороны, Tesseract более точен, но вообще не имеет графического интерфейса. У меня вопрос: есть ли бесплатная программа OCR для Windows, которая имеет приятный …
Обработка OCR занимает много времени. Использование нескольких процессорных ядер ускорит обработку. Acrobat 10 не был многопоточным приложением . Как насчет Acrobat 11? 11 по умолчанию делает OCR, используя несколько процессорных ядер (если доступно)? Если нет, есть ли какие-то обходные пути, например, сценарии, чтобы заставить Acrobat 11 выполнять OCR с использованием …
Как запустить сканирование и распознавание символов с помощью Microsoft Office Word 2010 (бета-версия)? Я не могу найти вариант для сканирования документа в моем сканере непосредственно в документ Word 2010. Я проверил параметры установки для Office 2010 (бета-версия) и элементы OCR установлены.
Время от времени я сталкиваюсь с PDF, который вначале выглядит хорошо, но основной текст искажен. В настоящее время у меня есть PDF, где искажены только заголовки, и я хотел бы знать, можно ли каким-то образом заменить искаженный текст на правильный. Я думал о распознавании определенных страниц, но это работает, только …
я купил Живое перо который записывает все, что я пишу (и говорю). Тем не менее, он может дать мне только PDF-версии того, что я написал. С помощью MyScript (платное расширение) Я могу заставить его конвертировать свои рукописные заметки в цифровой текст. Но оказывается, что он не очень любит голландский и …