Если ваша цель состоит в том, чтобы эти страницы не были видны широкой публике, лучше всего поставить пароль на этот набор страниц. И / или иметь некоторую конфигурацию, которая позволяет только определенным, занесенным в белый список адресам, иметь доступ к сайту (это можно сделать на уровне сервера, вероятно, через администратора вашего хоста или сервера).
Если ваша цель состоит в том, чтобы эти страницы существовали, но не были проиндексированы Google или другими поисковыми системами, как уже упоминали другие, у вас есть несколько вариантов, но я думаю, что важно различать две основные функции поиска Google в этом смысл: ползать и индексировать.
Сканирование и индексирование
Google сканирует ваш сайт, Google индексирует ваш сайт. Сканеры находят страницы вашего сайта, индексация организует страницы вашего сайта. Больше информации об этом немного здесь .
Это различие важно при попытке заблокировать или удалить страницы из «Индекса» Google. Многие люди по умолчанию просто блокируют через robots.txt, который указывает Google, что (или что нет) сканировать. Часто предполагается, что если Google не сканирует ваш сайт, вряд ли он будет проиндексирован. Однако очень часто можно увидеть страницы, заблокированные файлом robots.txt, проиндексированные в Google.
Директивы для Google и поисковых систем
Этот тип «директив» является просто рекомендацией для Google, по какой части вашего сайта сканировать и индексировать. Они не обязаны следовать за ними. Это важно знать. Я видел, как многие разработчики за эти годы думали, что они могут просто заблокировать сайт через robots.txt, и внезапно сайт индексируется в Google несколько недель спустя. Если кто-то ссылается на сайт или один из сканеров Google каким-то образом его захватывает, он все равно может быть проиндексирован .
Недавно на обновленной панели мониторинга GSC (Google Search Console) этот отчет получил название «Отчет об охвате индекса». Веб-мастерам доступны новые данные, ранее недоступные напрямую, а также конкретные сведения о том, как Google обрабатывает определенный набор страниц. Я видел и слышал о многих веб-сайтах, получающих «Предупреждения», помеченные как «проиндексированные, но заблокированные Robots.txt».
В последней документации Google упоминается, что если вы хотите, чтобы страницы отсутствовали в индексе, добавьте в него теги noindex nofollow.
Инструмент удаления URL
Просто для того, чтобы опираться на то, что некоторые другие упоминали об «инструменте удаления URL»
Если страницы уже проиндексированы, и необходимо срочно их получить, Google «Инструмент удаления URL-адресов» позволит вам «временно» заблокировать страницы из результатов поиска. Запрос длится 90 дней, но я использовал его для более быстрого удаления страниц из Google, чем с использованием noindex, nofollow, вроде дополнительного слоя.
Используя инструмент «Удалить URL-адреса», Google по-прежнему будет сканировать страницу и, возможно, кэшировать ее, но пока вы используете эту функцию, вы можете добавить теги noindex nofollow, чтобы они их видели, и к тому времени, когда 90 дней будут надеюсь, он узнает, что не будет больше проиндексировать вашу страницу.
ВАЖНО! Использование тегов robots.txt и noindex nofollow является несколько противоречивым сигналом для Google.
Причина в том, что если вы скажете Google не сканировать страницу, и на этой странице появится noindex nofollow, он может не сканировать, чтобы увидеть тег noindex nofollow. Затем его можно проиндексировать каким-либо другим способом (будь то ссылка или еще что-нибудь). Детали того, почему это происходит, довольно расплывчаты, но я видел, как это произошло.
Короче говоря, на мой взгляд, лучший способ остановить индексацию определенных URL-адресов - это добавить на эти страницы тег noindex nofollow. При этом убедитесь, что вы не блокируете эти URL-адреса также с помощью robots.txt, поскольку это может помешать Google правильно видеть эти теги. Вы можете использовать инструмент удаления URL-адресов из инструмента Google, чтобы временно скрыть их от результатов поиска, пока Google обрабатывает ваш noindex nofollow.