Вопросы с тегом «beautifulsoup»

Beautiful Soup - это пакет Python для анализа HTML / XML. Последней версией этого пакета является версия 4, импортированная как bs4.

29
UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ xa0' в позиции 20: порядковый номер не в диапазоне (128)
У меня проблемы с работой символов юникода из текста, полученного с разных веб-страниц (на разных сайтах). Я использую BeautifulSoup. Проблема в том, что ошибка не всегда воспроизводима; иногда он работает с некоторыми страницами, а иногда он бросает a UnicodeEncodeError. Я перепробовал практически все, что мог придумать, и все же я …

16
Как найти элементы по классу
У меня проблемы с анализом HTML-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я получаю сообщение об ошибке в той же строке «после» сценария заканчивается. File "./beautifulcoding.py", line 130, in getlanguage if …

12
bs4.FeatureNotFound: Не удалось найти конструктор дерева с требуемыми функциями: lxml. Вам нужно установить библиотеку парсера?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Вышеуказанные выводы на моем терминале. Я нахожусь на Mac OS 10.7.x. У меня есть Python 2.7.1, и …

6
UnicodeEncodeError: кодек 'charmap' не может кодировать символы
Я пытаюсь почистить сайт, но он выдает ошибку. Я использую следующий код: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) И я получаю следующую ошибку: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: …

5
TypeError: требуется байтоподобный объект, а не 'str' в python и CSV
TypeError: требуется байтоподобный объект, а не 'str' Ошибка выше при выполнении кода ниже python для сохранения данных таблицы HTML в файле CSV. не знаю, как получить rideup.pls, помогите мне. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row in table.findAll('tr')[1:]: list_of_cells=[] for …

11
Красивый суп и извлечение div и его содержимого по ID
soup.find("tagName", { "id" : "articlebody" }) Почему это НЕ возвращает <div id="articlebody"> ... </div>теги и прочее между ними? Ничего не возвращает И я точно знаю, что он существует, потому что я смотрю прямо на него с soup.prettify() soup.find("div", { "id" : "articlebody" }) тоже не работает. ( РЕДАКТИРОВАТЬ: я обнаружил, …

16
получать ссылки с веб-страницы с помощью python и BeautifulSoup [закрыто]
Закрыто . Этот вопрос требует подробностей или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и проясните проблему, отредактировав этот пост . Закрыт 2 месяца назад . Уточните этот вопрос Как я могу получить ссылки веб-страницы и скопировать URL-адрес ссылок с помощью Python?

16
ImportError: Модуль без имени bs4 (BeautifulSoup)
Я работаю в Python и использую Flask. Когда я запускаю свой основной файл Python на моем компьютере, он работает отлично, но когда я активирую venv и запускаю файл Flask Python в терминале, он говорит, что мой основной файл Python имеет «No Module Named bs4». Любые комментарии или советы с благодарностью.


10
BeautifulSoup Захватить видимый текст веб-страницы
По сути, я хочу использовать BeautifulSoup для получения строго видимого текста на веб-странице. Например, эта веб-страница - мой тестовый пример. И в основном я хочу просто получить основной текст (статью) и, возможно, даже несколько названий вкладок здесь и там. Я пробовал предложение в этом вопросе SO, который возвращает множество <script>тегов …

6
Как найти потомков узлов с помощью BeautifulSoup
Я хочу получить все <a>теги, которые являются дочерними для <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Я знаю, как найти элемент с таким классом: soup.find("li", { "class" : "test" }) Но я не знаю, как найти всех, <a>чьи дети, <li class=test>но не все остальные. Как …

7
Извлечение значения атрибута с помощью beautifulsoup
Я пытаюсь извлечь содержимое одного атрибута value в конкретном теге input на веб-странице. Я использую следующий код: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) Я получаю TypeError: индексы списка должны быть …

9
можем ли мы использовать xpath с BeautifulSoup?
Я использую BeautifulSoup для очистки URL-адреса, и у меня был следующий код import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Теперь в приведенном выше коде мы можем использовать findAllдля получения тегов и связанной с …

7
Python: BeautifulSoup - получить значение атрибута на основе имени атрибута
Я хочу напечатать значение атрибута на основе его имени, например, <META NAME="City" content="Austin"> Я хочу сделать что-то подобное soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Приведенный выше код дает KeyError: 'name', я считаю, это потому, …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.