Вопросы с тегом «web-crawler»

Поисковый робот (также известный как веб-паук) - это компьютерная программа, которая просматривает всемирную паутину методическим, автоматическим или упорядоченным образом. Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.

5
Как запросить у Google повторное сканирование моего сайта? [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь знает способ запросить Google повторно сканировать веб-сайт? Если возможно, это не должно …
227 seo  web-crawler 

2
Отправка «User-agent» с использованием библиотеки запросов в Python
Я хочу отправить значение "User-agent"при запросе веб-страницы с помощью запросов Python. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Отладочная информация не показывает заголовки, отправляемые во время …

4
сохранить rsync от удаления незаконченных исходных файлов
У меня две машины, скорость и масса. speed имеет быстрое подключение к Интернету и использует сканер, который загружает много файлов на диск. У массы много дискового пространства. Я хочу переместить файлы со скорости на массу после того, как они закончили скачивать. В идеале я бы просто запустил: $ rsync --remove-source-files …



2
TypeError: нельзя использовать строковый шаблон для байтового объекта в re.findall ()
Я пытаюсь узнать, как автоматически получать URL-адреса со страницы. В следующем коде я пытаюсь получить название веб-страницы: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) И я получаю эту неожиданную ошибку: Traceback (most …

11
Определение слоев и размеров слоев для каждого образа Docker
В исследовательских целях я пытаюсь просканировать общедоступный реестр Docker ( https://registry.hub.docker.com/ ) и выяснить: 1) сколько слоев в среднем образе и 2) размеры этих слоев, чтобы получить идея распределения. Однако я изучил API и публичные библиотеки, а также подробную информацию о github, но я не могу найти никакого метода, чтобы: …

11
Обнаружение "стелс-сканеров"
Какие есть варианты обнаружения веб-сканеров, которые не хотят быть обнаруженными? (Я знаю, что методы обнаружения листинга позволят умному программисту-невидимке сделать лучшего паука, но я не думаю, что мы когда-либо сможем блокировать умные стелс-сканеры, только те, которые делают ошибки.) Я не говорю о хороших сканерах, таких как googlebot и Yahoo! Хлюпать. …
107 web-crawler 


5
Как найти все ссылки / страницы на сайте
Можно ли найти все страницы и ссылки на ЛЮБОМ сайте? Я хочу ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но он загружает весь сайт, и мне просто нужно дерево каталогов.

8
Получить список URL-адресов с сайта [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я развертываю сайт-замену для клиента, но он не хочет, чтобы все его старые …

10
Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy
У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все определенные мной конвейеры применимы для каждого паука. благодаря

10
Скрыть адрес электронной почты от ботов - сохранить mailto:
tl; dr Скрыть адрес электронной почты от ботов без использования скриптов и сохранить mailto:функциональность. Метод также должен поддерживать программы чтения с экрана. Резюме Обфускация электронной почты без использования скриптов или контактных форм Адрес электронной почты должен быть полностью видимым для зрителей и поддерживать mailto:функциональность Адрес электронной почты не должен быть …
81 html  css  web-crawler  mailto 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.