Есть ли в Google кеш robots.txt?


17

Неделю назад я добавил файл robots.txt на один из моих сайтов, что должно было предотвратить попытки робота Google получить определенные URL-адреса. Однако в эти выходные я вижу, как робот Google загружает эти точные URL-адреса.

Кэширует ли Google файл robots.txt и, если да, то должен?

Ответы:


13

Я настоятельно рекомендую зарегистрировать ваш сайт с помощью Google Search Console (ранее Google Webmaster Tools) . В разделе конфигурации сайта есть раздел доступа для сканера, который сообщит вам о последней загрузке файла robots.txt . Этот инструмент также содержит много подробностей о том, как сканеры видят ваш сайт, что заблокировано или не работает, и где вы появляетесь в запросах в Google.

Из того, что я могу сказать, Google часто скачивает robots.txt . Сайт Google Search Console также позволит вам специально удалять URL-адреса из индекса, чтобы вы могли удалить те, которые вы сейчас блокируете.


2
Я проверил инструменты для веб-мастеров: файл robots.txt действителен, и последний раз он был загружен за 17 часов до последнего посещения этих страниц googlebot. Я подозреваю, что это вопрос распространения через сеть Google - в конечном итоге все серверы googlebot будут догонять инструкции robots.txt.
Quog

Робот Google не использует robots.txt так часто, как об обновлениях сообщается в консоли поиска. Прошло четыре недели с тех пор, как я сделал обновление, и бот Google все еще использует плохой файл robots.txt - и это разрушает наш трафик и рейтинг.
Корпоративный Компьютерщик

3

Упорствовать. Я перешел с robots.txt на meta noindex, nofollow. Чтобы мета работала, заблокированные адреса в robots.txt должны были быть сначала разблокированы.

Я сделал это жестоко, полностью удалив файл robots.txt (и разделив его в веб-мастере Google).

Процесс удаления robots.txt, как видно из инструмента для веб-мастеров (количество заблокированных страниц), занял 10 недель, из которых основная масса была удалена Google только в течение последних 2 недель.


Я склонен согласиться с вами. Мы ошиблись и неправильно обновили файл robots.txt. Google кэшировал его, и он использует его через четыре недели после того, как мы исправили ошибку, и заменил его новым robots.txt. Я даже вручную отправил запрос на обновление в Google Webmaster Tools и ... ничего. Это действительно плохо, так как привело к потере трафика и рейтинга. :(
Корпоративный Компьютерщик

2

Да, Google, очевидно, до некоторой степени кеширует robots.txt - он не будет загружать его каждый раз, когда захочет просмотреть страницу. Как долго это кеширует, я не знаю. Однако, если у вас установлен длинный заголовок Expires, робот Google может оставить его намного дольше, чтобы проверить файл.

Другая проблема может быть неправильно настроен файл. В Инструментах для веб-мастеров, которые предлагает Данивович, есть проверка robots.txt . Он скажет вам, какие типы страниц заблокированы, а какие в порядке.


См. Комментарий к этому ответу webmasters.stackexchange.com/questions/2272/…
Quog

2
@Quog: посмотрите это недавнее видео: youtube.com/watch?v=I2giR-WKUfY Мэтт Каттс предполагает, что файл robots.txt загружается один раз в день или примерно через каждые 100 запросов.
Рассерженная шлюха

2

Документация Google гласит, что они обычно кэшируют файл robots.txt в течение дня, но могут использовать его дольше, если при попытке обновить его возникнут ошибки.

Запрос robots.txt обычно кэшируется на срок до одного дня, но может кэшироваться дольше в ситуациях, когда обновление кэшированной версии невозможно (например, из-за тайм-аутов или ошибок 5xx). Кэшированный ответ может совместно использоваться разными сканерами. Google может увеличить или уменьшить время жизни кэша, основываясь на максимальных HTTP-заголовках Cache-Control.


1

Да. Они говорят, что, как правило, обновляют его один раз в день, но некоторые полагают, что они также могут проверить его после определенного количества просмотров страниц (100?), Чтобы более загруженные сайты проверялись чаще.

См. Https://webmasters.stackexchange.com/a/29946 и видео, которым @DisgruntedGoat поделился выше http://youtube.com/watch?v=I2giR-WKUfY .


1

Из того, что я вижу в доступном для пользователя кэше, вам нужно ввести URL-адрес вашего файла robots.txt в поиск Google, а затем нажать маленькую зеленую стрелку раскрывающегося списка и нажать «кэшировать» (см. Изображение ниже) это даст вам последнюю версию этой страницы с серверов Googles.

введите описание изображения здесь


-2

Вы можете запросить его удаление с помощью инструмента удаления URL Google .


Это не отвечает на вопрос.
MrWhite

почему не ответ?
КОЗАШИ СОУЗА

Потому что речь идет конкретно о robots.txt, кешировании и сканировании URL. Одним из результатов этого может быть то, что URL не индексируются, но это не вопрос. (Утилита Google для удаления URL также является «временным» исправлением, есть и другие шаги, которые нужно сделать, чтобы сделать его постоянным.)
MrWhite,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.