Как преобразовать отсканированный PDF в PDF с текстом


36

Я отсканировал около 80 страниц в оттенки серого PDF (формат изображения). Конечный размер файла составляет около 70 МБ, что очень много.

Сейчас я ищу способ преобразования PDF-файла на основе изображений в градациях серого в простой PDF-файл на основе черно-белого текста.

Я сделал много попыток, gsно безуспешно (только несколько процентов восстановления). Если у какого-либо эксперта есть идея, пожалуйста, дайте мне знать.


1
Вам нужен инструмент OCR. Посмотрите на Tesseract ubuntuforums.org/showthread.php?t=880471
Никита У.

4
Если вы заинтересованы в том, чтобы сохранить изображения PDF как есть и добавить к ним текст, взгляните на вопрос Добавление информации OCR в PDF .
Колан

Если бы вы могли опубликовать ссылку на (например) одностраничный пример, мы могли бы протестировать решения ...
Rmano

Это не решение для оптического распознавания текста, но askubuntu.com/a/3387/16395 очень помогает (хотя 72 dpi немного низко, у меня лучше результаты с 120).
Rmano

Правильно ли работает YAGF с Ubuntu 16.04? Если я загружаю изображение или PDF-документ, программа прерывается без сообщения об ошибке. Под Ubuntu 14.04 у меня не было проблем. Х.Роос
Хьюберт Роос

Ответы:


25

gImageReader - это простой интерфейс GTK + для tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

извините за немецкий текст


4
Вам также следует установить язык документа для улучшения распознавания текста, sudo apt-get install tesseract-ocr-[lang]заменяя langего языковым кодом, например deu, porдля
немецкого

1
Это программное обеспечение безобразно. Удобство использования ниже нуля. Хотя он пытается выполнить работу, но не может читать простые таблицы, похожие на электронные таблицы. Просто пропускает страницы, содержащие их.
Макс Юдин

9

Вы можете попробовать pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Выполнить синтаксис

 pdfocr -i input.pdf -o output.pdf

где input.pdf- имя входного файла и output.pdfвыходного файла.

По умолчанию используется Tesseract. Чтобы установить его:

 sudo apt-get install tesseract-ocr

pdfocr создает встроенный текстовый слой.


Большой! Интересно, что после выполнения вышеуказанных шагов файл теперь доступен для поиска в Adobe Acrobat DC, но не в Preview.
17

2
Этот репозиторий не поддерживает xenial
Макс N

Вы можете попробовать установить старую версию pdfocr, если вы установите wily версию на xenial, она работает нормально. Для этого добавьте «deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main» и «deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main» в /etc/apt/sources.list, а затем "SUDO меткого обновления" и "Sudo APT-получить установку pdfocr"
rafmunozf

2
pdfocr - это скрипт, который автоматизирует следующий процесс: 1. Разделение файла PDF на отдельные страницы с помощью pdftk 2. Извлечение данных изображения с помощью pdfimages 3. Выполнение OCR (оптическое распознавание символов) с помощью клинописи 4. Вложение обнаруженного текста обратно в PDF файл с использованием hocr2pdf 5. Объединение файлов с помощью pdftk. (цитата из ubuntuforums.org/showthread.php?t=1456756 )
Томми Трасселл

3
pdfsandwich

Он загружает тессеракт и другие при установке. Это простое одношаговое решение, которое можно записать в сценарии. Его можно использовать hocr2pdfдля создания простого текста в формате pdf, но он не готов к прайм-тайм ... пока. По умолчанию используется tesseract и создается «зажатый» pdf: изображение + текст внизу.

Встроенное изображение может быть удалено с помощью таких команд:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

но текст скрыт, поэтому он выглядит как пустая страница.

Загрузка PDF в LibreOffice Drawвыставляет текст, и изображение может быть удалено вручную.


Что мы делаем с проблемами безопасности imagemagick / ghostscript, приводящими к таким not authorizedошибкам identify-im6.q16: imagemagick - преобразование: не авторизовано aaaa@ error / constitute.c / ReadImage / 453 - переполнение стека
nealmcb

1

Для графического интерфейса, предложенного @AB на Ubuntu 14.04, вы должны следовать:

ocr тессеракт на убунту 14.04

или в любом случае, добавьте в список хранилища:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

до этого работает:

sudo apt-get install gimagereader


-1

В вашем файле PDF щелкните правой кнопкой мыши и сохраните каждую страницу в виде изображения (или найдите инструмент, который выполняет все страницы автоматически)

Откройте программный центр Ubuntu. Ищите тессеракт. Это найдет YAGF, который вы должны установить. В YAGF щелкните Файл -> Открыть изображение и загрузите изображение. Затем нажмите Файл -> Распознать.

У меня была 100% точность в моем первом тесте.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.