Ответы:
Нет исключения для роботов протокол совместимых поисковая система может сканировать любой URL запрещенного в robots.txt, независимо от того , где еще может быть в списке.
Однако Google не обязательно должен сканировать ваши URL-адреса, чтобы проиндексировать их. Если они считают, что у них есть достаточные доказательства того, что на этом URL действительно есть страница (и очень вероятно, что такая карта считается списком сайта), они могут просто решить добавить URL в свой индекс без какого-либо содержимого. Цитировать справочные страницы Инструментов Google для веб-мастеров :
«Хотя Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы все равно можем индексировать URL-адреса, если найдем их на других страницах в Интернете. В результате URL-адрес страницы и, возможно, другие общедоступная информация, такая как якорный текст в ссылках на сайт или заголовок проекта Open Directory (www.dmoz.org), может появляться в результатах поиска Google ".
Такие страницы могут появляться как результаты поиска, например, для слов, включенных в сам URL, или для слов, используемых в ссылках, указывающих на страницу.
Таким образом, если вы оба перечислите страницу в карте сайта и запретите ее в файле robots.txt, вполне вероятно, что Google будет индексировать URL-адрес этой страницы, но не ее содержимое.
Robots.txt определяет, какие боты разрешены или нет. Даже если конкретная ссылка присутствует в карте сайта, бот не имеет права запрашивать ее, если robots.txt запрещает ее.
Помните, что файлы Sitemap не нужны, и даже если они указаны, сканеры могут игнорировать URL-адреса и сканировать те, которых там нет. Если это можно увидеть в Инструментах Google для веб-мастеров, это показывает, что не все URL-адреса в карте сайта сканируются, и если некоторые URL-адреса являются роботизированными .
Ответ Итая правильный, поэтому ничего особенного добавить к этому нельзя, кроме ответа на ваш конкретный вопрос ...
Карта сайта не может превзойти robots.txt, карта сайта не содержит инструкций / директив для сканеров на сайте. Они даже не сопоставимы. Если вы указали роботам не посещать / следовать, /foo
то любые боты, которые подчиняются директивам роботов, просто не будут посещать этот каталог, независимо от того, по какому пути они туда попали (карта сайта или иным образом).
В веб-мастере Google: в вашем файле XML-файла отображается ошибка: «Вы добавили ссылку, которая запрещена для сканирования, в ваш файл robots.txt. Google предпочитает файл robots.txt, а не файл Sitemap.