Я являюсь основным разработчиком и автором довольно крупного веб-сканера (см. Metadatalabs.com/mlbot (заархивированная ссылка) ). То, что вы просите, касается темы, которая очень важна для нас - возможно, самая важная часть работы сканера: вежливость.
Во-первых, причина появления «Mozilla» заключается в том, чтобы рассказать сайту о возможностях вашего браузера. Если ваш бот не пытается вести себя как браузер, то нет особой причины, по которой вам нужно включать «Mozilla».
Что касается строки вашего пользовательского агента и других элементов, связанных с вежливостью:
Выберите имя, которое вы знаете, никто другой не использует. Я подозреваю, что если вы используете "Goofybot", все будет в порядке. Но я бы проверил это, чтобы быть уверенным.
В строке вашего пользовательского агента должна быть ссылка на дополнительную информацию о боте. Например, наша строка гласит «MLBot (www.metadatalabs.com/mlbot)».
Убедитесь, что если кто-то ищет "Goofybot", эта страница занимает высокое место (желательно сначала) в результатах поиска.
На вашей странице о боте должно быть указано, для чего вы используете информацию, с каких IP-адресов вы сканируете, и чтобы люди могли связаться с вами по поводу проблем с ботом.
Вы должны быстро отвечать на любые вопросы или жалобы, используя философию «клиент всегда прав». Помните, что если ваш бот вызвал проблему, на которую этот человек жалуется, то, вероятно, он вызвал проблемы на дюжине других сайтов, на которые никто не жаловался. Они либо не увидели проблем, либо просто заблокировали ваш IP-адрес.
Вы должны встроить средство, чтобы предотвратить доступ вашего бота к определенному доменному имени. Некоторые люди вообще не хотят, чтобы вы сканировали, и у них нет доступа или технических возможностей для создания файла robots.txt или блока в .htaccess. Мы обнаружили, что эта возможность позволяет нам сказать кому-то: «Извините, MLBot вызвал проблему. Мы дали указание никогда больше не сканировать ваш сайт». Возможно, неудивительно, что это очень быстро успокаивает людей.
Если вы еще не уважаете robots.txt, сделайте это. Ничто не принесет вам плохую репутацию быстрее, чем игнорирование robots.txt.
Вау. Это продолжалось дольше, чем я ожидал. За последние четыре года я совершил каждую из тех ошибок, на которые я ссылаюсь выше, а также другие. Однако мы обнаружили, что если мы открыто говорим о том, что делаем, и честно общаемся (в том числе публикуем информацию об ошибках до того, как мы получим жалобы), большинство веб-мастеров считают нас хорошим гражданином Интернета.