Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?
Возможно, связанный пост, OCR с Ubuntu здесь .
pdftotext
= pdfcat
.
Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?
Возможно, связанный пост, OCR с Ubuntu здесь .
pdftotext
= pdfcat
.
Ответы:
У вас есть много вариантов!
pdftotext
от попплера уже упоминалось.
Есть программа на Haskell,pdf2line
которая работает хорошо.
Калибра «сек ebook-convert
программа командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.
ebook-convert file.pdf file.txt
AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:
abiword --to=txt file.pdf
Еще один вариант - podofotextextract
из библиотеки инструментов podofo PDF. Я действительно не пробовал это.
Если вы объедините два инструмента Ghostscript, pdf2ps
и у ps2ascii
вас есть еще один вариант.
На самом деле я могу придумать еще несколько методов, но пока оставлю это. ;)
pdftotext
дает более точные результаты, чем ebook-convert
и это очень быстро. ebook-convert
вялый
pdftotext
с -layout
опцией рок! calibre
требуется более 600 МБ для установки! Это безумие)
Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
package).
Вы можете использовать Recoll
(Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует pdftotext
для преобразования PDF в текст.
Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).
pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.
gPDFText преобразует содержимое PDF книги в текст ASCII, переформатированный для длинных абзацев, работает для меня и имеет графический интерфейс.
gPDFText
можно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.