Можно ли замедлить частоту сканирования Baiduspider?


18

Много было сделано из частоты ползания паука Baidu. Это правда: «Baiduspider ползает как сумасшедший».

Я испытал это явление на сайтах, с которыми я работаю. По крайней мере, в одном случае я обнаружил, что Baiduspider сканирует примерно с той же частотой, что и робот Googlebot, несмотря на то, что Baidu обеспечивает примерно на 0,1% больше трафика, чем Google.

Я хотел бы сохранить эти посещения на моем сайте, как можно меньше (возможно, однажды они вырастут?), Но я не могу оправдать такую ​​большую нагрузку на мой сервер.

Принятый ответ на вопрос, связанный выше, предполагает, что Baidu Webmaster Tools предлагает возможность ограничить скорость сканирования, но я не решаюсь открыть эту (только для Китая) банку с червями.

У кого-нибудь есть опыт ограничения скорости сканирования Baiduspider с BWT? Есть ли другой способ ограничить эту нагрузку?

Ответы:


11

Отличный вопрос, и может заинтересовать многих веб-мастеров, поскольку паук Baidu общеизвестно агрессивен и может захватывать ресурсы с серверов ...

Как указывается в новостях Baidu о веб-поиске, паук Baidu не поддерживает настройку уведомления о задержке сканирования и вместо этого требует, чтобы вы зарегистрировались и подтвердили свой сайт с помощью платформы инструментов для веб-мастеров Baidu, как указано здесь на его сайте. Похоже, что это единственная возможность напрямую контролировать частоту сканирования с помощью Baidu.

Проблема заключается в том, что другие спам-боты используют пользовательские агенты Baidu (перечислены здесь под номером 2), чтобы подсмотреть ваш сайт, как указано в их часто задаваемых вопросах здесь под номером 4. Поэтому запрос более медленной скорости сканирования с Baidu может решить не все.

Поэтому, если вы решите использовать Baidu Webmaster Tools, было бы целесообразно также сравнить его пользовательские агенты с IP-адресами, о которых известно, что они связаны с ними, с помощью ресурса, такого как база данных Bots vs Browsers , или с помощью обратного просмотра DNS.

Единственные другие варианты - либо блокировать все пользовательские агенты Baidu и, таким образом, жертвовать потенциальным трафиком от Baidu, либо пытаться ограничить чрезмерные запросы, используя что-то вроде mod_qos для Apache, который претендует на управление:

  • Максимальное количество одновременных запросов к расположению / ресурсу (URL) или виртуальному хосту.
  • Ограничение пропускной способности, например максимально допустимое количество запросов в секунду к URL-адресу или максимальное / минимальное количество загружаемых килобайт в секунду.
  • Ограничивает количество событий запроса в секунду (особые условия запроса).
  • Он также может «обнаруживать» очень важных лиц (VIP), которые могут получить доступ к веб-серверу без ограничений или с меньшими ограничениями.
  • Общая строка запроса и фильтр заголовка для запрета несанкционированных операций. Запрашивать ограничение и фильтрацию данных тела (требуется mod_parp).
  • Ограничения на уровне соединения TCP, например, максимальное количество разрешенных соединений от одного IP-адреса источника или динамическое управление поддержанием активности.
  • Предпочитает известные IP-адреса, когда на сервере заканчиваются свободные соединения TCP.

Я не обнаружил сообщений об опыте работы с инструментами Baidu для веб-мастеров, которые загружаются медленно и имеют проблемы с переводом (также нет версии на английском языке). Это может быть полезно, но, конечно, основано на мнении.


1
Это действительно полезно @Dan. Опробовать некоторые из этих решений (Baidu Инструменты для веб-мастеров - настоящая боль).
samthebrand

1
Благодарность! Отлично - я обновлю это, если найду другие варианты тоже. Этот вопрос отражает большое разочарование веб-мастеров агрессивными ботами и проблемы взаимодействия с ними (например, Baidu Webmaster Tools). Надеемся, что законные боты примут это во внимание, и станут доступны лучшие инструменты / опции.
Дан

@ Samthebrand и Дэн - пожалуйста, сообщите! Нашли ли вы какие-либо другие решения, которые вы можете порекомендовать?
lazysoundsystem

5

После долгих исследований и экспериментов с этим я, наконец, прикусила пулю и настроила учетную запись Baidu для веб-мастеров. Его довольно просто использовать, когда он вооружен Google Translate в другом окне. Вам может понадобиться активировать firebug, чтобы иметь возможность копировать и вставлять китайский текст с кнопок, которые вы не можете захватить в обычном режиме браузера.

После настройки вам нужно подождать несколько дней, пока не появятся данные для сканирования, а затем вы можете настроить частоту сканирования. Он появляется в разделе «Давление», к которому вы можете обратиться по этому URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Обратите внимание, что вы сможете использовать этот URL-адрес только в том случае, если у вас настроена учетная запись Baidu для веб-мастеров и вы связали URL-адрес своего веб-сайта с учетной записью соответствующего веб-сайта). Здесь вы увидите слайдер с текущей скоростью сканирования в центре (в моем случае 12676 запросов в день. Сдвиньте его влево, чтобы уменьшить скорость сканирования.

Я понятия не имею, уважает ли он ваш запрос. Это дает вам предупреждение, которое говорит что-то вроде этого. «Мы рекомендуем использовать скорость сканирования Baidu по умолчанию для сайта. Только если у вашего веб-сайта есть проблемы с нашим сканированием, используйте этот инструмент для его настройки. Для поддержания нормального сканирования вашего сайта Baidu примет вашу корректировку скорости сканирования к фактической Условия сайта и, следовательно, не может гарантировать, чтобы настроить в соответствии с вашим запросом. "


1
Я уверен, что я не единственный, кто был бы признателен за обновление по этому вопросу - уважает ли он запрос? Вы бы посоветовали создать аккаунт?
lazysoundsystem

Просто обновите прямой URL-адрес страницы настройки частоты сканирования, поскольку теперь она более глубоко скрыта в Инструментах для веб-мастеров (больше не в меню). Гугл переводчик делает его очень трудным для поиска из-за запутанных переводов ;-)
Одони

-1

Да, вы можете использовать Crawl-delayпараметр в robots.txt, чтобы установить количество секунд ожидания между последовательными запросами к одному и тому же серверу.

User-agent: Baiduspider
Crawl-delay: 100

Первая строка - указать только сканеру Baidu, чтобы он выполнял команду. 2-я строка - время ожидания в секундах между запросами к серверу. Вы можете добавить любую задержку, которая вам нужна.

Вам нужно будет добавить эти команды в существующий файл robots.txt . Если у вас еще нет файла robots.txt , добавьте приведенный выше код в текстовый файл, сохраните файл как robots.txt и загрузите его в корневую папку вашего сайта, чтобы он отображался по указанному ниже адресу:

www.examplesite.com/robots.txt

2
Baiduspider не поддерживает Crawl-Delay. Смотрите здесь .
samthebrand

Ой, видел это в файле robots.txt на нескольких сайтах, поэтому предположил, что это так! Как это высказывание идет ?!
Макс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.