Ответ Игнасио очень хорош. На самом деле, это было бы первым делом в моем списке. Ну, это и, возможно, предложить pdftohtml
инструмент, который также поставляется с poppler, в сочетании с pdfreflow, если вы хотите попытаться собрать текст в абзацы и т. Д. (Конечно, это даст вам вывод HTML, но преобразование HTML в простой текст может быть сделано разными способами.)
Вот и некоторые другие варианты.
Инструмент ebook-convert
командной строки от Caliber , который может конвертировать .PDFs в простой текст (или RTF или ряд форматов электронных книг, таких как ePub и т. Д.)
pdftxtextract
из Подофо
Abiword может быть вызван из командной строки для преобразования между любыми форматами, которые он может вводить из / export, и с соответствующим плагином импорта, включая PDF-файлы:
abiword --to=txt file.pdf
(Честно говоря, я думаю, что AbiWord и Calibre оба используют библиотеки Poppler, но я не уверен.)