Вопросы с тегом «robots.txt»

Robots.txt - это текстовый файл, используемый владельцами веб-сайтов для предоставления инструкций об их сайте веб-роботам. В основном это говорит роботам, какие части сайта открыты, а какие закрыты. Это называется протоколом исключения роботов.

5
Могу ли я вызвать Google, чтобы проверить мой robots.txt?
Я прочитал ответы на этот вопрос, но они все еще оставляют мой вопрос открытым: кеширует ли Google robots.txt? В Инструментах Google для веб-мастеров я не нашел способа повторно загрузить файл robots.txt . Из-за какой-то ошибки мой robots.txt был заменен на: User-agent: * Disallow: / И теперь весь мой контент был …

3
Google Preview подчиняется Robots.txt?
Потому что это выглядит так. Для моих сайтов мы запрещаем каталог изображений, а в предварительном просмотре отсутствуют изображения, из-за чего сайт выглядит странно. Это так, и есть ли способ разрешить только боту предварительного просмотра доступ к изображениям с помощью robots.txt? РЕДАКТИРОВАТЬ: Похоже, превью создаются как обычным ботом Google, так и …

3
Может ли индекс карты сайта содержать другие индексы карты сайта?
У меня есть двуязычный веб-сайт с индексом карты сайта для каждого языка, который ссылается на несколько различных карт сайта (один для видео, один для статического контента и один для статей). Я хотел бы представить другую карту сайта, которая связывает индексы карты сайта, чтобы я мог связать эту карту сайта в …

1
Как работает «Noindex:» в robots.txt?
Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую страницу и не позволит им проиндексировать вторую страницу. Эта директива robots.txt поддерживается Google …

2
Разрешить сканировать сайт могут только боты Google и Bing
Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

1
Объединение пользовательских агентов в robots.txt
Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
Как я могу использовать robots.txt, чтобы запретить только поддомен?
Моя база кода распределяется между несколькими средами (живой, постановка, Dev) и суб-доменов ( staging.example, dev.exampleи т.д.) , и только два должны быть разрешены для сканирования (то есть. , www.exampleА example). Обычно я изменяю /robots.txtи добавляю Disallow: /, но из-за общей базы кода я не могу изменить, /robots.txtне затрагивая все (под) …

6
Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?
У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого: User-agent: * Disallow: / Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам: User-agent: ia_archiver Disallow: Но я уже сделал то, …

10
Нужно остановить ботов от убийства моего веб-сервера
У меня очень серьезные проблемы с ботами на некоторых моих сайтах в моей учетной записи хостинга. Боты используют более 98% ресурсов моего процессора и 99% пропускной способности для всей моей учетной записи хостинга. Эти боты генерируют более 1 ГБ трафика в час для моих сайтов. Реальный человеческий трафик для всех …

1
Должен ли я блокировать страницы архива Wordpress от поисковых систем?
Я использую WordPress и /sample-post/URL-адреса для своих сообщений и /yyyy/mm/для архивов. Google полностью проиндексировал сайт. Поскольку в архивах в настоящее время отображаются полные записи, я подумал, что не должен позволять Google индексировать страницы архива, поскольку они содержат полные записи, и это будет дублированный контент. Таким образом, мой robots.txt содержит: Disallow: …

4
Роботы, запрещенные доменом, все еще перечислены в результатах поиска.
Таким образом, на всех наших сайтах, которые не являются поисковыми, мы применили файл robots.txt (см. Как исключить веб-сайт из результатов поиска Google в режиме реального времени? Или любой другой подобный вопрос). Однако, если условия поиска достаточно конкретны, сам домен можно найти по результатам. Пример этого можно найти здесь . Как …
9 seo  robots.txt 

3
Когда вы перемещаете сайт с помощью перенаправления 301, вы должны настроить robots.txt, запрещающий роботам сканировать старый адрес?
Сайт, над которым я работаю, переместил поддомен в другой поддомен с помощью перенаправления 301. Однако при проверке файла robots.txt старого поддоменов у него есть файл robots.txt, который запрещает поисковым роботам сканировать его. Это правильный ход? Я считаю, что нет, потому что сканеры не смогут сканировать старый сайт, чтобы увидеть коды …

5
Должны ли мы изменить наш Joomla robots.txt после объявления Google о сканировании CSS и JavaScript?
Наткнулся на объявление от Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Здесь утверждается: Для оптимального рендеринга и индексации в нашем новом руководстве указано, что вы должны разрешить роботу Google доступ к файлам JavaScript, CSS и изображениям, которые используют ваши страницы. Это обеспечивает оптимальную визуализацию и индексацию вашего сайта. Запрещение сканирования файлов Javascript или CSS в …

4
Robots.txt против Sitemap - кто победит в конфликте
Если я заблокирую каталог / foo в robots.txt, но мой xml-файл содержит URL-адреса с / foo, будут ли URL-адреса в карте сайта обнаруживаться Google и другими поисковыми системами? Другими словами, превосходит ли карта сайта robots.txt? Я так думаю, но не уверен.

2
Как правильно обрабатывать Allow and Disallow в robots.txt?
Я запускаю довольно масштабный веб-сканер. Мы очень стараемся использовать сканер в рамках общепринятых стандартов сообщества, в том числе уважая robots.txt. Мы получаем очень мало жалоб на сканер, но когда мы делаем это, большинство касается нашей работы с robots.txt. Чаще всего веб-мастер допустил ошибку в своем файле robots.txt, и мы любезно …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.