Кроме того , повинуясь robots.txt, подчиняться nofollow
и noindex
в <meta>
элементах и ссылки:
Многие считают, что robots.txt не является правильным способом блокировки индексации, и из-за этой точки зрения многие владельцы сайтов указали <meta name="robots" content="noindex">
тегу, чтобы веб-сканеры не индексировали страницу.
Если вы пытаетесь построить график связей между веб-сайтами (что-то похожее на PageRank),
(и <meta name="robots" content="nofollow">
) должно означать, что исходный сайт недостаточно доверяет целевому сайту, чтобы дать ему надлежащую поддержку. Таким образом, хотя вы можете индексировать целевой сайт, вы не должны хранить отношения между двумя сайтами.
SEO - это больше искусство, чем настоящая наука, и его практикуют многие люди, которые знают, что они делают, и много людей, которые читают резюме людей, которые знают, что они делают. Вы столкнетесь с проблемами, когда вас заблокируют на сайтах за действия, которые другие сайты сочли вполне приемлемыми из-за какого-то правила, которое кто-то подслушал или прочитал в сообщении блога на SEOmoz, которое может или не может быть правильно интерпретировано.
Из-за этого человеческого фактора, если вы не являетесь Google, Microsoft или Yahoo !, вы считаете себя злым, если не доказано иное. Вы должны проявить особую осторожность, чтобы действовать так, как будто вы не представляете угрозы для владельца веб-сайта, и действовать в соответствии с тем, как вы хотели бы, чтобы потенциально вредоносный (но, надеюсь, доброкачественный) сканер действовал:
- прекратить сканирование сайта, как только вы обнаружите, что вас заблокировали: 403/401 на страницах, которые вы знаете, работают, ограничены, превышены тайм-ауты и т. д.
- Избегайте исчерпывающего сканирования в относительно короткие периоды времени: просканируйте часть сайта и вернитесь позже (несколько дней спустя), чтобы сканировать другую часть. Не делайте параллельных запросов.
- избегайте сканирования потенциально уязвимых областей: например, URL-адресов, содержащихся
/admin/
в них.
Даже тогда это будет тяжелое сражение, если вы не прибегнете к таким методам черной шляпы, как подмена UA или намеренная маскировка шаблонов сканирования: многие владельцы сайтов по тем же причинам, что и выше, блокируют неизвестного сканера в поле зрения вместо того, чтобы принимать вероятность того, что кто-то не пытается взломать их сайт. Готовьтесь к большому количеству неудач.
Единственное, что вы можете сделать для борьбы с негативным изображением, которое будет иметь неизвестный сканер, - это указать в строке user-agent, кто вы:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Где http://example.com/aarobot.html
объясняет, чего ты пытаешься достичь и почему ты не угроза. На этой странице должно быть несколько вещей:
- Информация о том, как связаться с вами напрямую
- Информация о том, что собирает сканер и почему его собирает
- Информация о том, как отказаться и удалить все собранные данные
Последний из них является ключевым: хороший отказ подобен гарантии возврата денег ™ и приносит необоснованное количество гудвилла. Это должно быть гуманно: один простой шаг (либо адрес электронной почты, либо, в идеале, форма), и всеобъемлющий (не должно быть никаких "ошибок": отказ от участия означает прекращение сканирования без исключения).