Разрешить сканировать сайт могут только боты Google и Bing


10

Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Последнее правило User-agent: * Disallow: /запрещает всем ботам сканировать все страницы сайта?


11
Вся эта задача касается меня. Существуют и другие поисковые системы, и любой, кто их использует, не увидит ваш сайт. theeword.co.uk/info/search_engine_market говорит, что 4,99% Интернета не в ваших поисковых системах. Это много людей. Лучшим способом было бы отслеживать ваш трафик и видеть, действительно ли какой-либо бот вызывает проблемы, а затем блокировать их специально.
GKFX

8
Плохо себя боты могут просто полностью игнорировать ваш в robots.txtлюбом случае
Ник T

8
Действительно плохим ботам нет дела до robots.txt
Освальдо

4
@NickT, в реальном мире нет недостатка в плохих ботах, которые следуют robots.txt, или, по крайней мере, Disallow: /правилу. Если ваш личный веб-сайт врезается в землю из-за того, что бот-программист никогда не считал, что сервер может быть Raspberry Pi на неправильном конце соединения 256 кбит, такое полное исключение полезно.
Марк

2
@ Консоль почему?
о0 '.

Ответы:


24

За последней записью (начатой User-agent: *) последуют все вежливые боты, которые не идентифицируют себя как "googlebot", "google", "bingbot" или "bing".
И да, это означает, что им не разрешено ничего сканировать.

Вы можете опустить *в /bedven/bedrijf/*.
В оригинальной спецификации robots.txt *не имеет особого значения, это просто символ, как и любой другой. Таким образом, было бы запрещено только сканировать страницы, которые буквально имеют символ *в своем URL.
Хотя Google в этом отношении не следует спецификации robots.txt, поскольку они используют *в качестве подстановочного знака для «любой последовательности символов», в этом случае они не нужны : /bedven/bedrijf/*и это /bedven/bedrijf/будет означать одно и то же: заблокировать все URL, путь к которым начинается с /bedven/bedrijf/.

И, наконец, вы можете уменьшить ваш robots.txt до двух записей, потому что запись может иметь несколько User-agentстрок :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
Обратите внимание, что Google игнорирует директиву crawl-delay в robots.txt. Вместо этого вы должны установить его в Google Webmaster Tools.
Рассерженная шлюха

-2

Боты, особенно плохие, могут игнорировать файл robots.txt. Поэтому независимо от того, что там написано, некоторые роботы могут сканировать ваш сайт.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.