Вопросы с тегом «text-extraction»

13
Модуль Python для преобразования PDF в текст [закрыт]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Есть ли модуль Python для преобразования PDF-файлов в текст? Я попробовал один фрагмент …

13
Как извлечь подстроку с помощью регулярных выражений
У меня есть строка с двумя одинарными кавычками, 'символ. Между одинарными кавычками находятся данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some string with 'the data i want' inside";

15
Как извлечь текст из PDF? [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений …

8
Как извлечь строку по шаблону с помощью grep, regex или perl
У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мне нужно извлечь что-нибудь в следующих кавычках name=, то есть content_analyzer, content_analyzer2и content_analyzer_items. Я делаю это в системе Linux, поэтому решение с использованием sed, …

5
Извлечение текста из файла PDF с помощью PDFMiner в Python?
Я ищу документацию или примеры того, как извлечь текст из файла PDF с помощью PDFMiner с Python. Похоже, PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код (классы и методы изменились). Обнаруженные мной библиотеки, упрощающие извлечение текста из файла PDF, используют старый синтаксис PDFMiner, поэтому …

2
Анализ PDF с использованием Python - извлечение форматированного и простого текста [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа PDF. Я …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.