Основываясь на своих исследованиях по этому вопросу, я обнаружил, что не существует 100% -го гарантированного способа предотвращения индексации и кэширования данных, но вы можете подойти довольно близко (если предположить, что вы хотите справиться с увеличением трафика ботов). Вот как я интерпретировал информацию.
Можно было бы подумать, что файл robots.txt используется для определения информации о роботах по всему сайту, а мета-теги используются для деталей конкретной страницы. Я думаю, что дух, стоящий за этими двумя, именно такой, но на практике это не так.
Не создавайте файл robots.txt
Это работает со всеми основными поставщиками поиска , чтобы предотвратить содержание появляться на SERP, но никак не предотвратить индексацию. Это также не позволяет роботам сканировать ваши страницы, поэтому любые метатеги роботов (см. Ниже) также игнорируются. Из-за этого вы не можете использовать 2 вместе, и поэтому, если вы хотите предотвратить индексирование, вы не должны использовать файл robots.txt.
Примечание: Google поддерживает использование Noindex: /
файла robots.txt, но он недокументирован (кто знает, когда он сломается) и неизвестно, работает ли это для кого-то еще.
Используйте заголовки HTTP или теги HTML META, чтобы предотвратить все
В отличие от файла robots.txt, метатег robots (и HTTP-заголовок) широко поддерживается и, что удивительно, имеет множество функций. Он предназначен для установки на каждой странице, но недавнее использование X-Robots-Tag
заголовка облегчает настройку для всего сайта. Единственным недостатком этого метода является то, что боты будут сканировать ваш сайт. Это может быть ограничено использованием nofollow
, но не все боты искренне уважают nofollow
.
Я нашел тонну информации в этом устаревшем сообщении в блоге . Первоначальный выпуск был в 2007 году, но, поскольку большая часть информации о нем является более новой, с тех пор она регулярно обновляется.
Таким образом, вы должны отправить HTTP-заголовок X-Robots-Tag: noindex,nofollow,noodp,noydir
. Вот разбивка почему:
nofollow
должно ограничивать количество страниц, просматриваемых на вашем сайте, что снижает трафик ботов. * noindex
говорит движкам не индексировать страницу.
- Теперь вы можете предположить, что этого
noindex
может быть достаточно. Однако я обнаружил, что даже если вы скажете, что noindex
ваш сайт может быть проиндексирован из-за других сайтов, ссылающихся на него. Лучший способ предотвратить общедоступные ссылки на сайт от Y! Каталог ( noydir
) и Открытый каталог ( noodp
).
- Использование заголовка HTTP также применяет данные роботов к файлам, изображениям и другим файлам, отличным от HTML! УРА!
Это будет работать в 99% случаев. Имейте в виду, что некоторые провайдеры все еще могут проиндексироваться. Google утверждает, что полностью уважает noindex
, но у меня есть свои подозрения.
Наконец, если вы действительно проиндексированы или уже проиндексированы, единственный способ деиндексировать вашу информацию - это следовать различным средствам каждого провайдера, чтобы запросить удаление сайта / URL. Очевидно, это означает, что вы, вероятно, захотите отслеживать сайты / страницы, используя что-то вроде Google Alerts (спасибо @Joe).