У меня есть сайт, который по нормативным причинам не может быть проиндексирован или произведен автоматический поиск. Это означает, что мы должны держать всех роботов подальше и не дать им спайдеринг сайта.
Очевидно, у нас был файл robots.txt, который запрещает все с самого начала. Однако наблюдение за файлом robots.txt - это то, что делают только роботы с хорошим поведением. Недавно у нас были проблемы с роботами с плохим поведением. Я настроил Apache для запрета нескольких пользовательских агентов, но это довольно легко обойти.
Итак, вопрос в том, есть ли какой-нибудь способ настроить Apache (возможно, установив какой-нибудь модуль?) Для обнаружения поведения, подобного роботу, и ответа? Есть еще идеи?
На данный момент все, что я могу сделать, это запретить IP-адреса на основе ручной проверки журналов, и это просто не является жизнеспособной долгосрочной стратегией.