Как фанат открытого исходного кода (и автоматизации) я не хочу говорить это, но лучшие результаты, которые я только что получил (на довольно большом, сложном PDF), - это открыть его в Adobe Reader, а затем выбрать «Файл | Сохранить как текст».
(Я готовлюсь к экспериментам по анализу текста, а не как к читателю, но я думаю, что мой первый и второй выбор будут одинаковыми.)
Я сравнивал выходные данные бок о бок. Мой второй выбор - ebook-convert.
Adobe : оставлено в FF для разрыва страниц, оставлено в номерах страниц, не преобразует заголовки / абзацы в отдельные строки, но имеет фиксированные дефисы. Спам, который был спрятан в PDF, не получил вывод. Правильно получил большие заглавные буквы в начале секций, например «The», а не «T он» или даже «T он».
ebook-convert : оставлено в номерах страниц и скрытый мусор в верхнем / нижнем колонтитуле (но без FF). Преобразует большинство абзацев в одну строку. Те, которые он пропустил, имеют двойной интервал! Пули не всегда совпадают с текстом. Правильно получил «The» в начале главы.
pdftotext (без --layout) : неплохо, пули выстраиваются, но шум верхнего / нижнего колонтитула. ФФ там. Дефисы удалены. Худшие для начала главы большие буквы: "T \ n \ nhe".
pdftotext (с --layout) : похожие, но больше отступов. «Т он» для начала главы.
pdftohtml >> pdfreflow >> htmltotext : он удаляет номера страниц, но все еще остается ненужным в верхнем / нижнем колонтитуле. «Т он» для начала главы. Дефисы удалены. (Он использует несколько строк в абзаце, но они не такие же разрывы строк, как в других версиях!)