Robots.txt против Sitemap - кто победит в конфликте

8

Если я заблокирую каталог / foo в robots.txt, но мой xml-файл содержит URL-адреса с / foo, будут ли URL-адреса в карте сайта обнаруживаться Google и другими поисковыми системами? Другими словами, превосходит ли карта сайта robots.txt? Я так думаю, но не уверен.

robots.txt xml-sitemap

— Натан
источник

12

Нет исключения для роботов протокол совместимых поисковая система может сканировать любой URL запрещенного в robots.txt, независимо от того , где еще может быть в списке.

Однако Google не обязательно должен сканировать ваши URL-адреса, чтобы проиндексировать их. Если они считают, что у них есть достаточные доказательства того, что на этом URL действительно есть страница (и очень вероятно, что такая карта считается списком сайта), они могут просто решить добавить URL в свой индекс без какого-либо содержимого. Цитировать справочные страницы Инструментов Google для веб-мастеров :

«Хотя Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы все равно можем индексировать URL-адреса, если найдем их на других страницах в Интернете. В результате URL-адрес страницы и, возможно, другие общедоступная информация, такая как якорный текст в ссылках на сайт или заголовок проекта Open Directory (www.dmoz.org), может появляться в результатах поиска Google ".

Такие страницы могут появляться как результаты поиска, например, для слов, включенных в сам URL, или для слов, используемых в ссылках, указывающих на страницу.

Таким образом, если вы оба перечислите страницу в карте сайта и запретите ее в файле robots.txt, вполне вероятно, что Google будет индексировать URL-адрес этой страницы, но не ее содержимое.

— Илмари Каронен
источник

Так что это сделало бы ваш ответ Да, а не Нет, не так ли? :) Потому что он получает URL-адреса, несмотря на то, что каталог заблокирован в robots.txt, и вы, похоже, с этим согласны.

— Хенрик Эрландссон

3

Robots.txt определяет, какие боты разрешены или нет. Даже если конкретная ссылка присутствует в карте сайта, бот не имеет права запрашивать ее, если robots.txt запрещает ее.

Помните, что файлы Sitemap не нужны, и даже если они указаны, сканеры могут игнорировать URL-адреса и сканировать те, которых там нет. Если это можно увидеть в Инструментах Google для веб-мастеров, это показывает, что не все URL-адреса в карте сайта сканируются, и если некоторые URL-адреса являются роботизированными .

— Итай
источник

3

Ответ Итая правильный, поэтому ничего особенного добавить к этому нельзя, кроме ответа на ваш конкретный вопрос ...

Карта сайта не может превзойти robots.txt, карта сайта не содержит инструкций / директив для сканеров на сайте. Они даже не сопоставимы. Если вы указали роботам не посещать / следовать, /fooто любые боты, которые подчиняются директивам роботов, просто не будут посещать этот каталог, независимо от того, по какому пути они туда попали (карта сайта или иным образом).

— zigojacko
источник

Хм ... Это то, что Google говорит в своей документации о том, как они справляются со сканированием. [absoluteURL] указывает на файл Sitemap, файл индекса Sitemap или эквивалентный URL. URL-адрес не обязательно должен быть на том же хосте, что и файл robots.txt. Может существовать несколько записей карты сайта. Как записи, не входящие в группу, они не привязаны к каким-либо конкретным пользовательским агентам и могут отслеживаться всеми искателями, если это не запрещено .

— zigojacko

3

Когда Google может правильно обработать файл robots.txt, URL-адрес, указанный в файле Sitemap, никогда не превзойдет действительную директиву disallow в файле robots.txt. Googlebot не должен сканировать URL, запрещенный для сканирования.

— Джон Мюллер

0

В веб-мастере Google: в вашем файле XML-файла отображается ошибка: «Вы добавили ссылку, которая запрещена для сканирования, в ваш файл robots.txt. Google предпочитает файл robots.txt, а не файл Sitemap.

— Асиф Фариди
источник