программирование web-crawler

5

Как запросить у Google повторное сканирование моего сайта? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь знает способ запросить Google повторно сканировать веб-сайт? Если возможно, это не должно …

227 seo web-crawler

2

Отправка «User-agent» с использованием библиотеки запросов в Python

Я хочу отправить значение "User-agent"при запросе веб-страницы с помощью запросов Python. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Отладочная информация не показывает заголовки, отправляемые во время …

217 python web-crawler python-requests

4

сохранить rsync от удаления незаконченных исходных файлов

У меня две машины, скорость и масса. speed имеет быстрое подключение к Интернету и использует сканер, который загружает много файлов на диск. У массы много дискового пространства. Я хочу переместить файлы со скорости на массу после того, как они закончили скачивать. В идеале я бы просто запустил: $ rsync --remove-source-files …

169 storage web-crawler rsync

8

Разница между BeautifulSoup и Scrapy Crawler?

Я хочу сделать сайт, который показывает сравнение между Amazon и E-Bay. Что из этого будет работать лучше и почему? Я немного знаком с BeautifulSoup, но не так много с Scrapy Crawler .

134 python beautifulsoup scrapy web-crawler

16

как обнаружить ботов поисковой системы с помощью php?

Как с помощью php обнаружить ботов поисковых систем?

118 php web-crawler bots

2

TypeError: нельзя использовать строковый шаблон для байтового объекта в re.findall ()

Я пытаюсь узнать, как автоматически получать URL-адреса со страницы. В следующем коде я пытаюсь получить название веб-страницы: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) И я получаю эту неожиданную ошибку: Traceback (most …

112 python python-3.x web-crawler

11

Определение слоев и размеров слоев для каждого образа Docker

В исследовательских целях я пытаюсь просканировать общедоступный реестр Docker ( https://registry.hub.docker.com/ ) и выяснить: 1) сколько слоев в среднем образе и 2) размеры этих слоев, чтобы получить идея распределения. Однако я изучил API и публичные библиотеки, а также подробную информацию о github, но я не могу найти никакого метода, чтобы: …

112 image docker web-crawler

11

Обнаружение "стелс-сканеров"

Какие есть варианты обнаружения веб-сканеров, которые не хотят быть обнаруженными? (Я знаю, что методы обнаружения листинга позволят умному программисту-невидимке сделать лучшего паука, но я не думаю, что мы когда-либо сможем блокировать умные стелс-сканеры, только те, которые делают ошибки.) Я не говорю о хороших сканерах, таких как googlebot и Yahoo! Хлюпать. …

107 web-crawler

5

Как передать определенный пользователем аргумент в scrapy spider

Я пытаюсь передать определенный пользователем аргумент пауку scrapy. Может ли кто-нибудь подсказать, как это сделать? Я -aгде-то читал о параметре, но понятия не имею, как его использовать.

100 python scrapy web-crawler

5

Как найти все ссылки / страницы на сайте

Можно ли найти все страницы и ссылки на ЛЮБОМ сайте? Я хочу ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но он загружает весь сайт, и мне просто нужно дерево каталогов.

100 directory web-crawler

8

Получить список URL-адресов с сайта [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я развертываю сайт-замену для клиента, но он не хочет, чтобы все его старые …

99 web-crawler

10

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все определенные мной конвейеры применимы для каждого паука. благодаря

85 python scrapy web-crawler

10

Скрыть адрес электронной почты от ботов - сохранить mailto:

tl; dr Скрыть адрес электронной почты от ботов без использования скриптов и сохранить mailto:функциональность. Метод также должен поддерживать программы чтения с экрана. Резюме Обфускация электронной почты без использования скриптов или контактных форм Адрес электронной почты должен быть полностью видимым для зрителей и поддерживать mailto:функциональность Адрес электронной почты не должен быть …

81 html css web-crawler mailto

Вопросы с тегом «web-crawler»