Анализ PDF с использованием Python - извлечение форматированного и простого текста [закрыто]

Question 1

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow.

Закрыт 5 лет назад .

Уточните этот вопрос

Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа PDF. Я посмотрел на PyPDF, и он может очень хорошо извлекать текст из документа PDF. Проблема в том, что если в документе есть таблицы, текст в таблицах извлекается вместе с остальным текстом документа. Это может быть проблематично, потому что в результате получаются бесполезные разделы текста, которые выглядят искаженными (например, множество цифр смешиваются вместе).

Я хочу извлечь текст из PDF-документа, исключая любые таблицы и специальное форматирование. Есть ли библиотека, которая это делает?

Question 2

Вы также можете взглянуть на PDFMiner (или для более старых версий Python см. PDFMiner и PDFMiner ).

Особый интерес в PDFMiner заключается в том, что вы можете контролировать, как он перегруппирует текстовые части при их извлечении. Вы делаете это, указывая промежуток между строками, словами, символами и т. Д. Итак, возможно, настроив это, вы сможете добиться того, чего хотите (это зависит от изменчивости ваших документов). PDFMiner также может предоставить вам местоположение текста на странице, он может извлекать данные по идентификатору объекта и другим вещам. Так что копайтесь в PDFMiner и проявляйте изобретательность!

Но вашу проблему действительно нелегко решить, потому что в PDF текст не является непрерывным, а состоит из множества небольших групп символов, расположенных абсолютно на странице. Основное внимание в PDF-файлах уделяется сохранению целостности макета. Он ориентирован не на контент, а на презентацию.

Question 3

Это сложная проблема для решения, поскольку визуально похожие PDF-файлы могут иметь совершенно разную структуру в зависимости от того, как они были созданы. В худшем случае библиотека должна будет действовать как OCR. С другой стороны, PDF-файл может содержать достаточную структуру и метаданные для легкого удаления таблиц и рисунков, которые можно адаптировать к библиотеке.

Я почти уверен, что не существует инструментов с открытым исходным кодом, которые решают вашу проблему для самых разных PDF-файлов, но я помню, что слышал о коммерческом программном обеспечении, которое заявляет, что делает именно то, что вы просите. Я уверен, что вы столкнетесь с ними при поиске в Google.