Лучший инструмент для проверки файлов PDF? [закрыто]

Question 1

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow.

Закрыт 1 год назад .

Уточните этот вопрос

Как я могу просматривать PDF-файлы, желательно с помощью инструмента?

Пример использования: я пытаюсь программно сгенерировать файлы PDF (с помощью iText). У меня проблемы с получением определенных макетов, но у меня есть файлы PDF с текстом, выложенным так, как я хочу (сгенерированный из Word). Я хотел бы реконструировать, как они это делают.

PDF Inspector вроде бы хорош, но я ищу что-нибудь для Windows.

Question 2

Adobe Acrobat имеет очень крутой, но довольно хорошо скрытый режим, позволяющий просматривать файлы PDF. Я написал статью в блоге, объясняющую это, на https://blog.idrsolutions.com/2009/04/viewing-pdf-objects/

Question 3

Помимо инструментов на основе графического интерфейса, упомянутых в других ответах, существует несколько инструментов командной строки, которые могут преобразовать исходный исходный код PDF в другое представление, которое позволяет вам проверять (теперь измененный файл) с помощью текстового редактора. Все перечисленные ниже инструменты работают в Linux, Mac OS X, других системах Unix или Windows.

`qpdf` (мой любимый)

Используйте qpdf для распаковки (большинства) потоков объектов, а также для разделения ObjStmобъектов на отдельные косвенные объекты:

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

qpdfописывает себя как инструмент, который выполняет «структурные преобразования с сохранением содержимого в файлах PDF» .

Затем просто откройте + проверьте uncompressed-qpdf.pdfфайл в своем любимом текстовом редакторе. Большая часть ранее сжатых (и, следовательно, двоичных) байтов теперь будет обычным текстом.

`mutool`

Существует также mutoolинструмент командной строки, который поставляется в комплекте со средством просмотра PDF-файлов MuPDF (который является дочерним продуктом Ghostscript, созданным той же компанией Artifex ). Следующая команда также распаковывает потоки и упрощает их просмотр в текстовом редакторе:

mutool clean -d orig.pdf uncompressed-mutool.pdf

`podofouncompress`

PoDoFo - это библиотека FreeSoftware / OpenSource для работы с форматом PDF, которая включает в себя несколько инструментов командной строки, в том числеpodofouncompress. Используйте это так, чтобы распаковать потоки PDF:

podofouncompress orig.pdf uncompressed-podofo.pdf

`peepdf.py`

PeePDF - это инструмент на основе Python, который помогает вам исследовать файлы PDF. Его первоначальная цель заключалась в исследовании и анализе вредоносных программ на основе PDF, но я считаю полезным также исследовать структуру полностью безопасных файлов PDF.

Его можно использовать в интерактивном режиме для «просмотра» объектов и потоков, содержащихся в PDF.

Я не буду приводить здесь пример использования, а только ссылку на его документацию:

peepdf - Инструмент анализа PDF

`pdfid.py` а также `pdf-parser.py`

pdfid.pyи pdf-parser.pyдва инструмента PDF от Дидье Стивенса, написанные на Python.

Их опыт также помогает исследовать вредоносные PDF-файлы, но я также считаю полезным анализировать структуру и содержимое безопасных PDF-файлов.

Вот пример того, как я извлекаю несжатый поток объекта PDF № 5 в файл * .dump:

pdf-parser.py -o 5 -f -d obj5.dump my.pdf

Заключительные примечания

Обратите внимание, что некоторые двоичные части внутри PDF-файла не обязательно являются несжимаемыми (или декодируемыми в читаемый человеком код ASCII), потому что они встроены и используются в своем собственном формате внутри PDF-файлов. Такие части PDF представляют собой изображения JPEG, шрифты или цветовые профили ICC.
Если вы сравните вышеуказанные инструменты и приведенные примеры командной строки, вы обнаружите, что НЕ все они производят одинаковые результаты. Попытка сравнить их на предмет их различий сама по себе может помочь вам лучше понять природу синтаксиса PDF и формата файла.

Question 4

Я использую iText RUPS (чтение и обновление синтаксиса PDF) в Linux. Поскольку он написан на Java, он работает и в Windows. Вы можете просматривать все объекты в PDF-файле в древовидной структуре. Он также может декодировать закодированные потоки Flate на лету, чтобы упростить проверку.

Вот скриншот:

Скриншот iText RUPS

Question 5

PDFXplorer от O2 Solutions отлично справляется с отображением внутренних компонентов.

http://www.o2sol.com/pdfxplorer/overview.htm

(Бесплатный отвлекающий баннер внизу).

Question 6

Я успешно использовал PDFBox . Вот пример того, как выглядит код (из версии 0.7.2), вероятно, взятый из одного из предоставленных примеров:

// load the document
System.out.println("Reading document: " + filename);
PDDocument doc = null;                                                                                                                                                                                                          
doc = PDDocument.load(filename);

// look at all the document information
PDDocumentInformation info = doc.getDocumentInformation();
COSDictionary dict = info.getDictionary();
List l = dict.keyList();
for (Object o : l) {
    //System.out.println(o.toString() + " " + dict.getString(o));
    System.out.println(o.toString());
}

// look at the document catalog
PDDocumentCatalog cat = doc.getDocumentCatalog();
System.out.println("Catalog:" + cat);

List<PDPage> lp = cat.getAllPages();
System.out.println("# Pages: " + lp.size());
PDPage page = lp.get(4);
System.out.println("Page: " + page);
System.out.println("\tCropBox: " + page.getCropBox());
System.out.println("\tMediaBox: " + page.getMediaBox());
System.out.println("\tResources: " + page.getResources());
System.out.println("\tRotation: " + page.getRotation());
System.out.println("\tArtBox: " + page.getArtBox());
System.out.println("\tBleedBox: " + page.getBleedBox());
System.out.println("\tContents: " + page.getContents());
System.out.println("\tTrimBox: " + page.getTrimBox());
List<PDAnnotation> la = page.getAnnotations();
System.out.println("\t# Annotations: " + la.size());

Question 7

Есть и другой вариант. Adobe Acrobat Pro также может отображать внутреннюю древовидную структуру PDF-файла.

Открыть предпечатную проверку
Перейдите в Параметры (правый верхний угол)
Внутренняя структура PDF

Сверху Adobe Acrobat Pro также может отображать внутреннюю структуру шрифтов документа в PDF, в большинстве других «просмотрщиков древовидной структуры PDF» этого нет.

Question 8

Программа просмотра объектов в Acrobat хороша, но программа Windjack Solution PDF Canopener позволяет лучше проверять с помощью пипетки для выбора объектов на странице. Также позволяет вносить изменения в PDF.

http://www.windjack.com/products/pdfcanopener.html

Question 9

PDF Analyzer похож на PDFXplorer , но имеет больше возможностей. Это также бесплатно после однократной регистрации.

Question 10

Если вы хотите работать программно из Python, pdfminer - хороший вариант. Это позволяет вам работать со структурой PDF в памяти как иерархией объектов или сериализовать ее как XML.

Question 11

Я предлагаю Foxit PDF Reader, который очень полезен при редактировании текста в PDF-файле.

Лучший инструмент для проверки файлов PDF? [закрыто]

qpdf (мой любимый)

mutool

podofouncompress

peepdf.py

pdfid.py а также pdf-parser.py