Как удалить тысячи URL-адресов из кэша Google?


13

Google кэшировал тысячи файлов PDF с моего сайта, которые не должны быть общедоступными. Я обновил свои заголовки, но мне нужно удалить существующий кэш быстрого просмотра.

Инструмент Google для веб-мастеров позволяет мне удалять их один за другим, однако это явно не практично, учитывая количество удаляемых файлов.

Кто-нибудь знает, как я могу удалить файлы PDF из кэша Google? В идеале я хотел бы, чтобы был способ удалить все, что соответствует "site: mysite.com * .pdf"


3
Быстрый поиск в Google показывает, что пакетное удаление невозможно с помощью API Google, вы должны собрать воедино свой собственный скрипт, который удаляет ссылки одну за другой

Ответы:


9

Похоже, вы уже выяснили, как запросить удаление одного URL , что, очевидно, здесь невозможно. Второй шаг в этом процессе также позволяет вам запросить удаление всего каталога , если URL-адреса файлов предсказуемы именно таким образом. (Если у вас есть тысячи PDF-файлов, я надеюсь, что они хотя бы несколько организованы.) Если нет, то, к сожалению, у вас практически нет выбора.


2

Недавно у меня был хак, который добавил несколько тысяч поддельных страниц на мой сайт.

Я отправил исправленную карту сайта в консоль поиска Google (ранее называвшуюся Инструментами для веб-мастеров) и перевернул все ссылки на 410, но большинство из них в Google все еще проиндексировано.

Я использовал Инструменты WebMaster - Массовое удаление URL-адресов Расширение Chrome для автоматической отправки URL-адресов для удаления. Это в основном скрипт, который берет список URL-адресов и затем отправляет их вам, по одному за раз. Чтобы отправить их все, понадобятся часы, но, по крайней мере, вам не придется делать это самостоятельно. Вот статья о том, как его использовать .

Вы можете получить список URL-адресов, которые индексирует Google, загрузив данные непосредственно из консоли поиска. Перейдите в Status> Index Coverage и выберите действительные результаты, затем прокрутите вниз. Вы увидите, что Google проиндексировал тонну URL-адресов, которых нет в вашей карте сайта. Вы можете скачать первые 1000 результатов. Очевидно, существует обходной способ получить их все, не только первую тысячу, но и использовать вызовы API из Excel. Я просто ждал несколько дней между каждой тысячей, поскольку они медленно выпадали из индекса.

Снимок покрытия индекса Google

Другой путь заключается в том, чтобы плагин WP создал карту сайта, а затем отфильтровал PDF-файлы или что-то еще, на что вы нацелены. Вам, вероятно, придется немного скопировать / вставить / удалить вручную. На всякий случай я медленно прокрутил список из 2700 спам-адресов и удалил допустимые. Это заняло всего около 20 минут.

Если вы не пытаетесь навсегда уничтожить что-либо, например, спам, и вместо этого пытаетесь запутать премиальные ресурсы, вам следует использовать другие методы для предотвращения индексации этих ресурсов, такие как файл роботов. Но если окажется, что Google не слушал или вы бросили мяч, по крайней мере, теперь вы можете исправить проблему и удалить их из индекса всего за несколько дней.

В моих конкретных обстоятельствах мне интересно, почему у Google нет ни кнопки времени, ни отмены, ни сброса. Идея заключается в том, что я могу сообщить Google, что сайт был взломан несколько дней назад, но мы его исправили, поэтому отменили последние x дней сканирования и индексации. Но это было бы слишком просто.


1

Если файлы «не должны быть общедоступными», то они должны быть в общедоступном Интернете. Вы можете удалить файлы из списков Google (через robots.txt и другие методы), но если файлы все еще там, то любой может их скачать.

Вы должны оставить их за какой-то аутентификацией. Например, переместите файлы из общедоступного веб-каталога и отправьте их из сценария, который проверяет, является ли пользователь первым.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.