Есть ли какой-нибудь PDF для преобразования текста?

21

Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?

Возможно, связанный пост, OCR с Ubuntu здесь .

— эфирное масло
источник

3

Подобный вопрос у Супер пользователя

— Жиль "ТАК - перестань быть злым"

Если это «настоящий» PDF (сделанный из текста и т. Д.), Pdftotext - ваш лучший выбор. Если это изображение, вам лучше всего использовать материал для распознавания текста.

— vonbrand

1

Я всегда использую pdftotext= pdfcat.

— изоморфизм

Похожий вопрос на аскубунту

— Тревор Бойд Смит

22

У вас есть много вариантов!

pdftotextот попплера уже упоминалось.

Есть программа на Haskell,pdf2line которая работает хорошо.

Калибра «сек ebook-convertпрограмма командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.

ebook-convert file.pdf file.txt

AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:

abiword --to=txt file.pdf

Еще один вариант - podofotextextractиз библиотеки инструментов podofo PDF. Я действительно не пробовал это.

Если вы объедините два инструмента Ghostscript, pdf2psи у ps2asciiвас есть еще один вариант.

На самом деле я могу придумать еще несколько методов, но пока оставлю это. ;)

— радостный
источник

откалиброванная электронная книга от калибра ... ты видел, что она делает с лигатурами? bleargh. Скажем так: это не очень эффективная программа. pdftotext намного более верен. я никогда не обнаруживал никаких ошибок в его выводе.

— ixtmixilix

1

Вы можете использовать меньше для просмотра PDF-файлов в виде текста. Он вызывает препроцессор, т.е. lesspipe, для вызова pdftotext или аналогичных инструментов.

— Даниэль Нэслунд

pdftotextдает более точные результаты, чем ebook-convertи это очень быстро. ebook-convertвялый

— Амит Патель

pdftotextс -layoutопцией рок! calibreтребуется более 600 МБ для установки! Это безумие)

— Сталинко

9

Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Вы можете использовать Recoll (Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует pdftotextдля преобразования PDF в текст.

Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).

— Жиль "ТАК - перестань быть злым"
источник

4

pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.

— jlliagre
источник

Найти примеры PDF- текстов в PDF для TEXT с открытым исходным кодом и инструмент командной строки & Как преобразовать все PDF-файлы в текст (в папке) с помощью одной команды? ,

— Кенорб

-1

gPDFText преобразует содержимое PDF книги в текст ASCII, переформатированный для длинных абзацев, работает для меня и имеет графический интерфейс.

— Чарльз
источник

3

Привет и добро пожаловать на сайт. Нам нравятся ответы, которые будут немного более полными здесь. Например, вы можете добавить, где gPDFTextможно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.

— Тердон