ОК ... Я думаю, что pdflatex
это недостающий кусок здесь.
ОП сказал, что он изучил poppler-utils
и pdftk
. Позвольте мне добавить к этому pdfimages
. Это вместе с pdflatex
частями решения.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
В приведенном выше примере кода pdfimages
просматривает страницы с 4 по 20 target.pdf
и извлекает все изображения в файлы с именами в начале imageroot
.
poppler-utils
обеспечивает pdftotext
. Я рекомендую -layout
вариант, который делает большую работу, сохраняя документ читабельным.
pdftotext -layout $1.pdf $1.txt
OP возражает против imagemagick
решения, предложенного пидозавром , что изображение не имеет извлекаемого текста. С помощью утилит, которые я обрисовал в общих чертах, у OP теперь будут все изображения, а также весь извлеченный текст, а номера страниц и содержимое сохраняются этой -layout
опцией. ОП может идентифицировать правильную страницу текста и поместить ее в .tex
файл, который заканчивается %includegraphics
директивой и ссылается на замену изображения по имени файла. Затем вы pdflatex
получите это и получите новый одностраничный .pdf для вставки в остальную часть вашего документа pdftk
. Если вы знали, где в тексте исходной страницы находилось изображение, вы можете %includegraphics [h]
и получить изображение в нужном месте.