Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?
Возможно, связанный пост, OCR с Ubuntu здесь .
pdftotext= pdfcat.
Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?
Возможно, связанный пост, OCR с Ubuntu здесь .
pdftotext= pdfcat.
Ответы:
У вас есть много вариантов!
pdftotextот попплера уже упоминалось.
Есть программа на Haskell,pdf2line которая работает хорошо.
Калибра «сек ebook-convertпрограмма командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.
ebook-convert file.pdf file.txt
AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:
abiword --to=txt file.pdf
Еще один вариант - podofotextextractиз библиотеки инструментов podofo PDF. Я действительно не пробовал это.
Если вы объедините два инструмента Ghostscript, pdf2psи у ps2asciiвас есть еще один вариант.
На самом деле я могу придумать еще несколько методов, но пока оставлю это. ;)
pdftotextдает более точные результаты, чем ebook-convertи это очень быстро. ebook-convertвялый
pdftotextс -layoutопцией рок! calibreтребуется более 600 МБ для установки! Это безумие)
Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Вы можете использовать Recoll
(Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует pdftotextдля преобразования PDF в текст.
Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).
pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.
gPDFText преобразует содержимое PDF книги в текст ASCII, переформатированный для длинных абзацев, работает для меня и имеет графический интерфейс.
gPDFTextможно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.