Вопросы с тегом «web-scraping»

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу с парсингом» (например, с Excel VBA), следует * тщательно изучить *, так как доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.

30
Варианты соскоба HTML? [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать Beautiful Soup , пакет Python …

16
Как найти элементы по классу
У меня проблемы с анализом HTML-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я получаю сообщение об ошибке в той же строке «после» сценария заканчивается. File "./beautifulcoding.py", line 130, in getlanguage if …

3
Безголовый браузер и выскабливание - решения [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Я пытаюсь разместить список возможных решений для автоматических тестов браузеров и безголовых браузерных …

6
Как я могу получить возраст кэша Google любого URL или веб-страницы? [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 2 года назад . Улучшить этот вопрос В моем проекте мне нужно добавить возраст кэша Google в качестве важной информации. …

3
Какой HTML парсер самый лучший? [закрыто]
В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за …

13
Как выбрать значение раскрывающегося меню с Selenium с помощью Python?
Мне нужно выбрать элемент из выпадающего меню. Например: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Сначала я должен нажать на него. Я сделаю это: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) После этого я должен выбрать хороший элемент, скажем так Mango. Я пытался сделать это с, …

14
Соскребая веб-страницу JavaScript с Python
Я пытаюсь разработать простой веб-скребок. Я хочу извлечь текст без кода HTML. На самом деле я достиг этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не добился хороших результатов. Например, если какой-то код JavaScript добавляет текст, я не вижу его, потому что когда я звоню …

4
Скремблирование таблиц html в R-фреймы данных с использованием пакета XML
Как я могу очистить таблицы HTML, используя пакет XML? Взять, к примеру, эту страницу википедии о бразильской футбольной команде . Я хотел бы прочитать его в R и получить таблицу «список всех матчей, которые Бразилия сыграла против признанных команд ФИФА» в виде data.frame. Как я могу это сделать?
153 html  r  xml  parsing  web-scraping 

13
Как сохранить изображение локально, используя Python, URL-адрес которого я уже знаю?
Я знаю URL изображения в Интернете. например, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , который содержит логотип Google. Теперь, как я могу загрузить это изображение, используя Python, не открывая URL в браузере и не сохраняя файл вручную.

16
получать ссылки с веб-страницы с помощью python и BeautifulSoup [закрыто]
Закрыто . Этот вопрос требует подробностей или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и проясните проблему, отредактировав этот пост . Закрыт 2 месяца назад . Уточните этот вопрос Как я могу получить ссылки веб-страницы и скопировать URL-адрес ссылок с помощью Python?

4
Как использовать запросы Python для имитации посещения браузера?
Я хочу получить контент с указанного ниже веб-сайта. Если я использую браузер, такой как Firefox или Chrome, я могу получить настоящую страницу веб-сайта, которую хочу, но если я использую пакет (или wgetкоманду) запросов Python для ее получения, он возвращает совершенно другую HTML-страницу. Я думал, что разработчик веб-сайта сделал для этого …

7
Кукловод: передать переменную в .evaluate ()
Я пытаюсь передать переменную в page.evaluate()функцию в Puppeteer , но когда я использую следующий очень упрощенный пример, переменная evalVarне определена. Я новичок в Puppeteer и не могу найти никаких примеров для развития, поэтому мне нужна помощь в передаче этой переменной в page.evaluate()функцию, чтобы я мог использовать ее внутри. const puppeteer …

2
Как лучше всего очистить данные с веб-сайта? [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 6 лет назад . Уточните этот вопрос Мне нужно извлечь содержимое с веб-сайта, …

2
селен с scrapy для динамической страницы
Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так: начинается со страницы product_list с 10 продуктами нажатие на кнопку «Далее» загружает следующие 10 продуктов (URL-адрес между двумя страницами не меняется) Я использую LinkExtractor, чтобы переходить по каждой ссылке продукта на страницу …

8
Как я могу скрести быстрее
Работа здесь , чтобы очистить АНИ сайт , который начинается с https://xxx.xxx.xxx/xxx/1.jsonк https://xxx.xxx.xxx/xxx/1417749.jsonи записать его точно MongoDB. Для этого у меня есть следующий код: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n in range(min, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.