Обновлено после ввода OP:
Для того чтобы типизировать слой OCR файла DJVU в файл PDF, то есть напечатать слова в том месте, в котором они появляются в файле DJVU, один из вариантов заключается в программной генерации файла Inkscape или Scribus. Я нарисую процедуру. Нетрудно написать скрипт на выбранном вами языке (Python, Ruby, Racket и т. Д.).
Для каждой страницы файла DJVU экспортируйте слой OCR как HTML или как S-выражение. Я буду предполагать последнее в следующем.
Извлеките размер страницы из (page x1 y1 x2 y2...
. Ширина страницы = x2-x1
, Высота страницы =y2-y1.
Для каждого слова рассчитайте ширину, высоту и координаты нижнего левого угла текстового фрейма, в котором он будет находиться. То есть превратить (word x1 y1 x2 y2 "another")
в текстовую рамку с левым нижним углом (x1, Page height - y1)
, шириной x2 - x1
и высотой y2 - y1
.
Выберите подходящий шрифт и размер шрифта для текстового фрейма. Используйте высоту прямоугольников слова в качестве руководства. Убедитесь, что текст не растянут по размеру текстового фрейма.
Как только вы закончите добавление всех текстовых фреймов на страницу, экспортируйте файл в PDF. Обратите внимание, что размер страницы намного больше, чем буква или А4. Если вы собираетесь распечатать документ, масштабируйте его в диалоговом окне печати в соответствии с размером бумаги. Чтобы сохранить деревья, сначала распечатайте в файл PDF.
Оригинальный ответ:
Согласно man djvused
, команда 'output-txt'
сгенерирует djvused
скрипт, который предназначен для потребления djvused
.
Для ваших целей лучше использовать (согласно man-странице)
djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
Затем вы можете создать PDF-файл с помощью программы, которая может печатать в PDF.
В зависимости от вашей операционной системы и версии вам может потребоваться установить принтер PDF. Вы также можете открыть его в последней версии Chrome или Firefox и распечатать в PDF.