ОК ... Я думаю, что pdflatexэто недостающий кусок здесь.
ОП сказал, что он изучил poppler-utilsи pdftk. Позвольте мне добавить к этому pdfimages. Это вместе с pdflatexчастями решения.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
В приведенном выше примере кода pdfimages просматривает страницы с 4 по 20 target.pdfи извлекает все изображения в файлы с именами в начале imageroot.
poppler-utilsобеспечивает pdftotext. Я рекомендую -layoutвариант, который делает большую работу, сохраняя документ читабельным.
pdftotext -layout $1.pdf $1.txt
OP возражает против imagemagickрешения, предложенного пидозавром , что изображение не имеет извлекаемого текста. С помощью утилит, которые я обрисовал в общих чертах, у OP теперь будут все изображения, а также весь извлеченный текст, а номера страниц и содержимое сохраняются этой -layoutопцией. ОП может идентифицировать правильную страницу текста и поместить ее в .texфайл, который заканчивается %includegraphicsдирективой и ссылается на замену изображения по имени файла. Затем вы pdflatexполучите это и получите новый одностраничный .pdf для вставки в остальную часть вашего документа pdftk. Если вы знали, где в тексте исходной страницы находилось изображение, вы можете %includegraphics [h]и получить изображение в нужном месте.