программирование text-extraction

13

Модуль Python для преобразования PDF в текст [закрыт]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Есть ли модуль Python для преобразования PDF-файлов в текст? Я попробовал один фрагмент …

385 python pdf text-extraction pdf-scraping

13

Как извлечь подстроку с помощью регулярных выражений

У меня есть строка с двумя одинарными кавычками, 'символ. Между одинарными кавычками находятся данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some string with 'the data i want' inside";

382 java regex string text-extraction

15

Как извлечь текст из PDF? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений …

152 pdf text ghostscript extraction text-extraction

8

Как извлечь строку по шаблону с помощью grep, regex или perl

У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мне нужно извлечь что-нибудь в следующих кавычках name=, то есть content_analyzer, content_analyzer2и content_analyzer_items. Я делаю это в системе Linux, поэтому решение с использованием sed, …

91 regex perl sed html-parsing text-extraction

5

Извлечение текста из файла PDF с помощью PDFMiner в Python?

Я ищу документацию или примеры того, как извлечь текст из файла PDF с помощью PDFMiner с Python. Похоже, PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код (классы и методы изменились). Обнаруженные мной библиотеки, упрощающие извлечение текста из файла PDF, используют старый синтаксис PDFMiner, поэтому …

87 python python-3.x python-2.7 text-extraction pdfminer

2

Анализ PDF с использованием Python - извлечение форматированного и простого текста [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа PDF. Я …

82 python pdf parsing text-extraction information-extraction

Вопросы с тегом «text-extraction»