Как автоматически вырезать и обрезать PDF-файлы, сделанные на отсканированных страницах *? [Дубликат]

Возможное дублирование.
Какое бесплатное программное обеспечение можно использовать для сканирования отсканированных изображений

У меня есть несколько PDF-файлов, составленных из сканов страниц книги. Сканирование выполняется с двух страниц одновременно, и некоторые из этих сканов перекошены, что делает текст слегка наклоненным.

Я ищу инструмент, который позволил бы мне выполнить автоматическую оптимизацию путем перетаскивания сканов без потери читабельности. Я нашел программу GPL Briss для обрезки сканов, чтобы иметь соотношение страниц 1: 1 вместо 2: 1, но у меня нет никакого инструмента для выравнивания страниц.

Я наткнулся на unpaper , еще один инструмент с открытым исходным кодом, который, кажется, идеально подходит для того, что я хочу сделать, но этот инструмент только для Linux, и он не работает напрямую с PDF-файлами.

Любая подсказка приветствуется.

pdf imagemagick

— Пьетро М.
источник

@random: Почему этот вопрос закрыт? Почему эта тема требует «дебатов, споров, опросов или расширенных дискуссий»?!?

— Курт Пфайфл

«поиск инструмента» в значительной степени опрос сервисов приводит к неконструктивной причине закрытия @kur

— случайно

@random: Этот вопрос побудил меня провести некоторое исследование по этой теме, и я нашел несколько интересных вариантов для продолжения. Наиболее интересным является использование ImageMagick для этого, и это кажется удивительно простым. К сожалению, ваше закрытие этого не позволяет мне опубликовать свой ответ.

— Курт Пфайфл

@random: Теперь я немного отредактировал вопрос. Надеюсь, теперь это больше соответствует вашему ощущению «конструктивности».

— Курт Пфайфл

@random: Хорошо, «закрытие как дубликат» в данном случае лучше для меня.

— Курт Пфайфл

Ответы:

Посмотрите на стол . Это инструмент командной строки. Загрузочный zip-архив включает в себя двоичные файлы для Windows, MacOSX и Linux.

Лицензия - MPL (Mozilla) или LPGL (GNU), что вы предпочитаете.

Единственным недостатком для вас, кажется, является то, что он не использует PDF-файлы, только изображения в формате PNG и TIFF (AFAICS). Это означает, что вам придется настроить рабочий процесс s.th. нравиться:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Я не проверял это сам (пока), я недавно наткнулся на сайт и добавил его в закладки.

— Курт Пфайфл
источник

deskewмне удалось исправить искажения, связанные с вращением, в моем тестовом прогоне, но, к сожалению, он ввел тонкую серую линию в позиции границы исходного изображения. Чтобы избавиться от серой границы, я обрезал изображения с -extentопцией mogrify. Я тестировал только на OS X, возможно, это неправильное поведение зависит от платформы.

— Стефан Шмидт

deskewработает действительно хорошо. Мой рабочий выглядит так: pdfimages -all <pdf> my_images → JBIG2 -s -p -v my_images* > output → pdf.py output > deskewed.pdfЕсли черные границы (результат работы Выравнивание) надоедает вам, некоторая обработка с ImageMagick может быть необходимым, как было предложено @StefanSchmidt

— г - н Тао

О, позвольте мне добавить еще один ответ. Я только что вспомнил netpbm . Не использовал его годами, но я думаю, что я должен взглянуть по-новому ...

netpbm - очень мощный инструментарий для командной строки для работы с графическими изображениями. Он отправляет около 300 отдельных инструментов. Включает конвертеры для около 100 графических форматов.

И у этого также есть инструмент командной строки, который может вращать изображения:

pnmrotate

И у него есть еще один инструмент, который пытается обнаружить угол поворота изображения:

pamtilt

pamtiltвозвращает плавающее число своего предположения о повороте изображения. Таким образом, автоматическое удаление изображений должно быть в пределах досягаемости. Для этого можно написать сценарий оболочки. Это потребовало бы разных шагов:

Конвертируйте PDF-страницу в подходящий для netpbm формат изображения с помощью Ghostscript.
Используйте pamtiltдля автоматического определения угла наклона изображения.
Используйте pnmrotateдля удаления изображения.
Повторно преобразовать изображение в PDF.

Если вы предоставите мне доступ к небольшому образцу ваших PDF-файлов, я мог бы попытаться создать сценарий оболочки для выполнения этой задачи.

(Мне очень интересно, что [netpbm] не имеет здесь тега на superuser + stackoverflow.)

— Курт Пфайфл
источник