программирование web-scraping

30

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать Beautiful Soup , пакет Python …

406 html web-scraping html-parsing html-content-extraction

16

Как найти элементы по классу

У меня проблемы с анализом HTML-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я получаю сообщение об ошибке в той же строке «после» сценария заканчивается. File "./beautifulcoding.py", line 130, in getlanguage if …

386 python html web-scraping beautifulsoup

3

Безголовый браузер и выскабливание - решения [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Я пытаюсь разместить список возможных решений для автоматических тестов браузеров и безголовых браузерных …

368 selenium web-scraping scrapy phantomjs casperjs

6

Как я могу получить возраст кэша Google любого URL или веб-страницы? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 2 года назад . Улучшить этот вопрос В моем проекте мне нужно добавить возраст кэша Google в качестве важной информации. …

261 html url hyperlink web-scraping

3

Какой HTML парсер самый лучший? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за …

194 java html parsing html-parsing web-scraping

13

Как выбрать значение раскрывающегося меню с Selenium с помощью Python?

Мне нужно выбрать элемент из выпадающего меню. Например: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Сначала я должен нажать на него. Я сделаю это: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) После этого я должен выбрать хороший элемент, скажем так Mango. Я пытался сделать это с, …

185 python selenium selenium-webdriver web-scraping webdriver

14

Соскребая веб-страницу JavaScript с Python

Я пытаюсь разработать простой веб-скребок. Я хочу извлечь текст без кода HTML. На самом деле я достиг этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не добился хороших результатов. Например, если какой-то код JavaScript добавляет текст, я не вижу его, потому что когда я звоню …

178 python web-scraping python-2.x urlopen

4

Скремблирование таблиц html в R-фреймы данных с использованием пакета XML

Как я могу очистить таблицы HTML, используя пакет XML? Взять, к примеру, эту страницу википедии о бразильской футбольной команде . Я хотел бы прочитать его в R и получить таблицу «список всех матчей, которые Бразилия сыграла против признанных команд ФИФА» в виде data.frame. Как я могу это сделать?

153 html r xml parsing web-scraping

13

Как сохранить изображение локально, используя Python, URL-адрес которого я уже знаю?

Я знаю URL изображения в Интернете. например, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , который содержит логотип Google. Теперь, как я могу загрузить это изображение, используя Python, не открывая URL в браузере и не сохраняя файл вручную.

152 python web-scraping

16

получать ссылки с веб-страницы с помощью python и BeautifulSoup [закрыто]

Закрыто . Этот вопрос требует подробностей или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и проясните проблему, отредактировав этот пост . Закрыт 2 месяца назад . Уточните этот вопрос Как я могу получить ссылки веб-страницы и скопировать URL-адрес ссылок с помощью Python?

144 python web-scraping hyperlink beautifulsoup

4

Как использовать запросы Python для имитации посещения браузера?

Я хочу получить контент с указанного ниже веб-сайта. Если я использую браузер, такой как Firefox или Chrome, я могу получить настоящую страницу веб-сайта, которую хочу, но если я использую пакет (или wgetкоманду) запросов Python для ее получения, он возвращает совершенно другую HTML-страницу. Я думал, что разработчик веб-сайта сделал для этого …

129 python html web-scraping python-requests wget

7

Кукловод: передать переменную в .evaluate ()

Я пытаюсь передать переменную в page.evaluate()функцию в Puppeteer , но когда я использую следующий очень упрощенный пример, переменная evalVarне определена. Я новичок в Puppeteer и не могу найти никаких примеров для развития, поэтому мне нужна помощь в передаче этой переменной в page.evaluate()функцию, чтобы я мог использовать ее внутри. const puppeteer …

128 javascript web-scraping evaluate puppeteer

2

Как лучше всего очистить данные с веб-сайта? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 6 лет назад . Уточните этот вопрос Мне нужно извлечь содержимое с веб-сайта, …

107 api web-scraping screen-scraping

2

селен с scrapy для динамической страницы

Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так: начинается со страницы product_list с 10 продуктами нажатие на кнопку «Далее» загружает следующие 10 продуктов (URL-адрес между двумя страницами не меняется) Я использую LinkExtractor, чтобы переходить по каждой ссылке продукта на страницу …

85 python selenium selenium-webdriver web-scraping scrapy

8

Как я могу скрести быстрее

Работа здесь , чтобы очистить АНИ сайт , который начинается с https://xxx.xxx.xxx/xxx/1.jsonк https://xxx.xxx.xxx/xxx/1417749.jsonи записать его точно MongoDB. Для этого у меня есть следующий код: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n in range(min, …

16 python mongodb web-scraping pymongo

Вопросы с тегом «web-scraping»