Если вы чувствуете, что они чрезмерно сканируют ваш сайт (возможно, даже пропускают более глубокий контент), вы должны убедиться, что ваши HTTP-заголовки возвращают хорошие значения для таких вещей, как «время последнего изменения» и т. Д. Возможно, робот Google переоценивает, насколько сильно меняется ваш сайт. , В качестве бонуса ваш сайт будет вести себя лучше в отношении кеширования (будь то прокси или на основе браузера) и, таким образом, чувствовать себя немного быстрее.
Вы бы хорошо изучили, какие URL сканируются (просматривая журналы вашего сервера). Если они снова и снова перерабатывают один и тот же URL-адрес, у вас точно есть проблема. Распространенным вариантом является то, что если у вас есть страница, которая может отображаться различными способами с помощью переменных запроса. Googlbot может попытаться просканировать каждую возможную комбинацию этих переменных.
Примером, с которым я сталкивался как оператор сканирования, была страница, содержащая список из двадцати заголовков, любую комбинацию которых можно развернуть. По сути, эта страница имела 2 ^ 20 разных URL!
Убедитесь, что робот Googlebot не застрял, сканируя одну и ту же страницу снова и снова с тривиально разными параметрами (я видел, что это увязло в этом)