В сфере нормальных ботов все зависит от того, что вы цените, и только вы можете решить это. Конечно, есть Google, Bing / MSN / Yahoo !, Baidu и Яндекс. Это основные поисковые системы. Есть также различные сайты SEO и обратных ссылок. Правильно или нет, я разрешаю нескольким из них иметь доступ к моему сайту, но в целом это бесполезные сайты. Я блокирую archive.org не только в robots.txt, но и по доменному имени и IP-адресу. Это потому, что они игнорируют robots.txt большое время! Это то, что вам нужно, чтобы почувствовать. Не обманывайтесь именами агентов. Часто они подделаны плохими людьми. Сейчас я получаю тысячи запросов от источников, утверждающих, что это Baidu, но это не так. Познакомьтесь с этими пауками по доменным именам и блокам IP-адресов и научитесь обращаться с ними на этом уровне. Хорошие подчиняются robots.txt.
Но я должен предупредить вас, что существует множество скрытых ботов, мошеннических ботов, скребков и т. Д., Которые вы захотите часто просматривать в журнале и блокировать. Это 5uck5! Но это должно быть сделано. Самая большая угроза от них в наши дни - низкокачественные ссылки на ваш сайт. Мой обновленный код защиты от ботов, который я внедрил в этом году, автоматически удалил 7700 ссылок низкого качества. Конечно, мой код все еще нуждается в работе, но вы понимаете суть. Плохие боты все еще крадут потенциал сайта.
Это не займет много времени, прежде чем вы освоитесь.