У меня есть файл PDF, содержащий карты здания, в котором я работаю, здесь:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Исходные исходные файлы были утеряны, и меня попросили извлечь изображения карты, желательно без текста и значков, наложенных поверх них. Это оказалось досадно трудным.
До сих пор я пробовал следующие программы с графическим интерфейсом:
- Adobe Reader: позволяет выбрать текст, но не фоновые изображения
- FoxIt PDF Viewer: позволяет выбирать текст, но не фоновые изображения
- XPDF в Ubuntu 10.10: позволяет выделять текст, но не фоновые изображения
А также следующие программы командной строки:
- pdfimages: извлекает значки, обозначающие ванные комнаты просто отлично, но не фоновые изображения
- pdftohtml: то же самое, что и pdfimages, плюс он делает плохо размеченный HTML-документ
- pdfextract: такой же, как pdfimages
- конвертировать: успешно сохраненные изображения, но с записанным в них текстом
Я даже пытался открыть PDF вручную в текстовом редакторе и извлечь объекты потока, вставив их в новый файл и сохранив его с расширением .jpg, .png или .bmp (каждый по очереди). Учитывая, как мало я знаю о внутренней структуре файлов PDF, неудивительно, что это не сработало.
Итак ... есть ли какой-нибудь способ, которым я могу извлечь изображения карты из этой вещи, не получая также текст и значки?
qpdf
для преобразования двоичных частей в ASCII, насколько это возможно. (2) Используйте текстовый редактор, чтобы сделать весь текст невидимым, который я не хочу видеть на экране или в распечатках (можно легко и без ущерба для таблицы XRef переключить флаг невидимости ). (3) Повторно отогнать результат с Ghostscript, чтобы свести к минимуму его размер. - К сожалению, ваш файл больше не загружается для демонстрации процедуры ...