Вопросы с тегом «html-content-extraction»

30
Варианты соскоба HTML? [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать Beautiful Soup , пакет Python …

30
Извлечение текста из файла HTML с использованием Python
Я хотел бы извлечь текст из файла HTML, используя Python. По сути, я хочу получить такой же вывод, как если бы я скопировал текст из браузера и вставил его в блокнот. Я хотел бы что-то более надежное, чем использование регулярных выражений, которые могут не работать на плохо сформированном HTML. Я …

8
Извлечь часть совпадения с регулярным выражением
Я хочу, чтобы регулярное выражение извлекало заголовок из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Есть ли регулярное выражение для извлечения только содержимого <title>, чтобы мне не нужно было удалять теги?

10
BeautifulSoup Захватить видимый текст веб-страницы
По сути, я хочу использовать BeautifulSoup для получения строго видимого текста на веб-странице. Например, эта веб-страница - мой тестовый пример. И в основном я хочу просто получить основной текст (статью) и, возможно, даже несколько названий вкладок здесь и там. Я пробовал предложение в этом вопросе SO, который возвращает множество <script>тегов …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.