Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа PDF. Я посмотрел на PyPDF, и он может очень хорошо извлекать текст из документа PDF. Проблема в том, что если в документе есть таблицы, текст в таблицах извлекается вместе с остальным текстом документа. Это может быть проблематично, потому что в результате получаются бесполезные разделы текста, которые выглядят искаженными (например, множество цифр смешиваются вместе).
Я хочу извлечь текст из PDF-документа, исключая любые таблицы и специальное форматирование. Есть ли библиотека, которая это делает?