Как работает «Noindex:» в robots.txt?

Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt .

Disallow: /page-one.html
Noindex: /page-two.html

Похоже, что это помешает поисковым системам сканировать первую страницу и не позволит им проиндексировать вторую страницу.

Эта директива robots.txt поддерживается Google и другими поисковыми системами? Это работает? Это задокументировано?

— Стивен Остермиллер
источник

Я не знаю ... но это может быть очень полезно для некоторых. Кроме того, я хотел бы, чтобы карта сайта была расширена и стала более коммуникативной. Между роботами и картами сайта это должно стать прекрасной возможностью для обратной связи с поисковыми системами и другими пользователями сайта. Я также за текстовую возможность информировать поисковые системы о сайте иным способом, помимо того, что он доступен в поиске, например, о странице, как если бы у вас была возможность напрямую поговорить с рецензентом сайта Google. Это может спасти некоторые боли в сердце и недопонимание. Шанс сказать Ooopppsss, я глупый - Извините.

— closetnoc

У меня сложилось впечатление, что disallowGoogle перестает обнаруживать ссылки на родительской и дочерней страницах, если таковые существуют. В то время как noindexпросто останавливает список страниц, он не останавливает обнаружение, в то время как запретить делает.

— Саймон Хейтер

@SimonHayter Я знаю, как это nofollowработает для мета-тегов. Было бы неплохо узнать, относится ли это к robots.txt .

— Стивен Остермиллер

Эй, @StephenOstermiller не только метатеги, но и для них <a rel="no-follow">тоже самое. Я не вижу причин, почему это будет рассматриваться иначе. Очевидно, что это не официально, и Джон Мюллер даже не рекомендовал использовать его в robots.txt, но кроме его твита мне не удалось найти много информации об этом.

— Саймон Хейтер

Стоит отметить, что Google больше не помечает Noindexдирективу в robots.txtфайлах как ошибку.

— Аран

Google раньше неофициально поддерживал Noindexдирективу в robots.txt, однако в 2019 году они объявили, что директива больше не будет работать.

Вот что говорит Джон Мюллер изNoindex: Google в robots.txt :

Раньше мы поддерживали директиву no-index в robots.txt в качестве экспериментальной функции. Но на это я бы не стал полагаться. И я не думаю, что другие поисковые системы используют это вообще.

Прежде чем Google объявил, что эта функция была прекращена, deepcrawl.com провел некоторое тестирование этой функции и обнаружил, что:

До 2019 года он все еще работал с Google
Это предотвратило появление URL в поисковом индексе
URL-адреса, которые не были проиндексированы в файле robots.txt, были помечены как таковые в консоли поиска Google.

Учитывая, что Google прекратил эту функцию, она больше не должна использоваться.

Вместо этого используйте метатеги роботов, которые хорошо поддерживаются и документированы для предотвращения индексации:

<meta name="robots" content="noindex" />

— Стивен Остермиллер
источник