Robots.txt: мне нужно запретить страницу, которая нигде не связана?


12

На моем веб-сайте есть несколько страниц, на которые пользователь может зайти, только если я дам ему / ей URL-адрес.

Если я запрещу отдельные страницы robots.txt, они будут видны всем, кто изучает их.

У меня такой вопрос: если я не буду связывать их откуда-либо или хотя бы с какой-либо проиндексированной страницы, будут ли они по-прежнему доступны для сканеров?

Ответы:


11

Вы не хотите, чтобы страница вообще появлялась в поисковой выдаче ...

Не запрещайте в robots.txt. Вместо этого добавьте метатег noindex (или HTTP-заголовок X-Robots-Tag) на свои страницы.

Как подсказывает j0k, ваши страницы могут быть как-то найдены. Отчеты по статистике, списки каталогов и т.д ...

Запрещение в robots.txt предотвращает сканирование страницы, но все же может быть проиндексировано и может отображаться как ссылка только для URL в результатах поиска. Что-то вроде:

Ссылка только на URL в поисковой выдаче Google

Метатег noindex вообще не позволяет странице появляться в поисковой выдаче, но Google должен иметь возможность сканировать страницу, чтобы увидеть метатег noindex, поэтому его нельзя запретить в robots.txt!

Если на странице есть что-то, что не должно быть общедоступным, то эти страницы должны быть за какой-то аутентификацией.


Следует помнить одну вещь: если это действительно что-то конфиденциальное, то «скрывать» это с помощью URL - это плохая практика, независимо от выбранного вами метода. Использование правильной аутентификации действительно важно в таком случае.
Джон Мюллер

1
Кроме того, кнопки социальных сетей (Like / Share / + 1 / различные закладки) также извлекают контент и могут отображать URL-адрес, заголовок и фрагмент общедоступным способом, даже если URL-адрес имеет индекс noindex (или запрещен роботами). .текст). Единственный способ предотвратить это - использовать аутентификацию.
Джон Мюллер

2

Ну, я думаю, у вас есть хороший сканер, который читает robots.txt и следует директиве. И другой, который не следует директиве.

И как вы планируете дать этот URL? По электронной почте, используя Facebook или Twitter? Все эти сервисы сканируют информацию, которую вы отправляете. Gmail анализирует электронную почту, которую вы получаете, чтобы предоставить рекламу. Итак, ваш URL будет как-то сканирован.

Некоторые люди используют панель инструментов Google (или любую другую панель инструментов из поисковой системы). Существует опция (по умолчанию отмечена, если я хорошо помню), которая позволяет панели инструментов отправлять все URL, которые вы посещаете, в Google. Это еще один способ для Google увидеть скрытую сеть. Таким образом, даже если вы сказали человеку не указывать URL-адрес, он неявным образом сделает это (благодаря панели инструментов).

Я думаю, что мы можем найти много других возможностей.

Таким образом, вы можете добавить его в robots.txt, но также предоставить дополнительные мета, такие как noindex, nofollow и т. Д.

редактировать:

Предложение w3d о robots.txt мне кажется хорошим. Так что не добавляйте его в robots.txt и предоставляйте метатег propre.


Я связываю их по электронной почте. Да, я планировал предоставить правильную мету. То есть вы предлагаете добавить их в роботов или нет? Спасибо
martjno

Я бы порекомендовал добавить его в robots.txt. Но предложение w3d изменило мое мнение. Не добавляйте это, но предоставьте правильный метатег.
J0K

0

В дополнение к комментариям выше, я бы также рекомендовал аутентификацию HTACCESS как минимум - таким образом, вы можете дать людям комбинацию имени пользователя и пароля на время их права на просмотр страниц.

Если есть что-то с проблемами конфиденциальности, то вам нужно подумать о правильном сценарии контроля входа.

Незащищенная страница (независимо от того, насколько хорошо вы думаете, что она скрыта) превратит ее в дикую природу.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.