Отличный вопрос, и может заинтересовать многих веб-мастеров, поскольку паук Baidu общеизвестно агрессивен и может захватывать ресурсы с серверов ...
Как указывается в новостях Baidu о веб-поиске, паук Baidu не поддерживает настройку уведомления о задержке сканирования и вместо этого требует, чтобы вы зарегистрировались и подтвердили свой сайт с помощью платформы инструментов для веб-мастеров Baidu, как указано здесь на его сайте. Похоже, что это единственная возможность напрямую контролировать частоту сканирования с помощью Baidu.
Проблема заключается в том, что другие спам-боты используют пользовательские агенты Baidu (перечислены здесь под номером 2), чтобы подсмотреть ваш сайт, как указано в их часто задаваемых вопросах здесь под номером 4. Поэтому запрос более медленной скорости сканирования с Baidu может решить не все.
Поэтому, если вы решите использовать Baidu Webmaster Tools, было бы целесообразно также сравнить его пользовательские агенты с IP-адресами, о которых известно, что они связаны с ними, с помощью ресурса, такого как база данных Bots vs Browsers , или с помощью обратного просмотра DNS.
Единственные другие варианты - либо блокировать все пользовательские агенты Baidu и, таким образом, жертвовать потенциальным трафиком от Baidu, либо пытаться ограничить чрезмерные запросы, используя что-то вроде mod_qos для Apache, который претендует на управление:
- Максимальное количество одновременных запросов к расположению / ресурсу (URL) или виртуальному хосту.
- Ограничение пропускной способности, например максимально допустимое количество запросов в секунду к URL-адресу или максимальное / минимальное количество загружаемых килобайт в секунду.
- Ограничивает количество событий запроса в секунду (особые условия запроса).
- Он также может «обнаруживать» очень важных лиц (VIP), которые могут получить доступ к веб-серверу без ограничений или с меньшими ограничениями.
- Общая строка запроса и фильтр заголовка для запрета несанкционированных операций. Запрашивать ограничение и фильтрацию данных тела (требуется mod_parp).
- Ограничения на уровне соединения TCP, например, максимальное количество разрешенных соединений от одного IP-адреса источника или динамическое управление поддержанием активности.
- Предпочитает известные IP-адреса, когда на сервере заканчиваются свободные соединения TCP.
Я не обнаружил сообщений об опыте работы с инструментами Baidu для веб-мастеров, которые загружаются медленно и имеют проблемы с переводом (также нет версии на английском языке). Это может быть полезно, но, конечно, основано на мнении.