Основываясь на своих исследованиях по этому вопросу, я обнаружил, что не существует 100% -го гарантированного способа предотвращения индексации и кэширования данных, но вы можете подойти довольно близко (если предположить, что вы хотите справиться с увеличением трафика ботов). Вот как я интерпретировал информацию.
Можно было бы подумать, что файл robots.txt используется для определения информации о роботах по всему сайту, а мета-теги используются для деталей конкретной страницы. Я думаю, что дух, стоящий за этими двумя, именно такой, но на практике это не так.
Не создавайте файл robots.txt
Это работает со всеми основными поставщиками поиска , чтобы предотвратить содержание появляться на SERP, но никак не предотвратить индексацию. Это также не позволяет роботам сканировать ваши страницы, поэтому любые метатеги роботов (см. Ниже) также игнорируются. Из-за этого вы не можете использовать 2 вместе, и поэтому, если вы хотите предотвратить индексирование, вы не должны использовать файл robots.txt.
Примечание: Google поддерживает использование Noindex: /файла robots.txt, но он недокументирован (кто знает, когда он сломается) и неизвестно, работает ли это для кого-то еще.
Используйте заголовки HTTP или теги HTML META, чтобы предотвратить все
В отличие от файла robots.txt, метатег robots (и HTTP-заголовок) широко поддерживается и, что удивительно, имеет множество функций. Он предназначен для установки на каждой странице, но недавнее использование X-Robots-Tagзаголовка облегчает настройку для всего сайта. Единственным недостатком этого метода является то, что боты будут сканировать ваш сайт. Это может быть ограничено использованием nofollow, но не все боты искренне уважают nofollow.
Я нашел тонну информации в этом устаревшем сообщении в блоге . Первоначальный выпуск был в 2007 году, но, поскольку большая часть информации о нем является более новой, с тех пор она регулярно обновляется.
Таким образом, вы должны отправить HTTP-заголовок X-Robots-Tag: noindex,nofollow,noodp,noydir. Вот разбивка почему:
nofollowдолжно ограничивать количество страниц, просматриваемых на вашем сайте, что снижает трафик ботов. * noindexговорит движкам не индексировать страницу.
- Теперь вы можете предположить, что этого
noindexможет быть достаточно. Однако я обнаружил, что даже если вы скажете, что noindexваш сайт может быть проиндексирован из-за других сайтов, ссылающихся на него. Лучший способ предотвратить общедоступные ссылки на сайт от Y! Каталог ( noydir) и Открытый каталог ( noodp).
- Использование заголовка HTTP также применяет данные роботов к файлам, изображениям и другим файлам, отличным от HTML! УРА!
Это будет работать в 99% случаев. Имейте в виду, что некоторые провайдеры все еще могут проиндексироваться. Google утверждает, что полностью уважает noindex, но у меня есть свои подозрения.
Наконец, если вы действительно проиндексированы или уже проиндексированы, единственный способ деиндексировать вашу информацию - это следовать различным средствам каждого провайдера, чтобы запросить удаление сайта / URL. Очевидно, это означает, что вы, вероятно, захотите отслеживать сайты / страницы, используя что-то вроде Google Alerts (спасибо @Joe).