Веб-мастера robots.txt

5

Могу ли я вызвать Google, чтобы проверить мой robots.txt?

Я прочитал ответы на этот вопрос, но они все еще оставляют мой вопрос открытым: кеширует ли Google robots.txt? В Инструментах Google для веб-мастеров я не нашел способа повторно загрузить файл robots.txt . Из-за какой-то ошибки мой robots.txt был заменен на: User-agent: * Disallow: / И теперь весь мой контент был …

11 google google-search-console robots.txt

3

Google Preview подчиняется Robots.txt?

Потому что это выглядит так. Для моих сайтов мы запрещаем каталог изображений, а в предварительном просмотре отсутствуют изображения, из-за чего сайт выглядит странно. Это так, и есть ли способ разрешить только боту предварительного просмотра доступ к изображениям с помощью robots.txt? РЕДАКТИРОВАТЬ: Похоже, превью создаются как обычным ботом Google, так и …

11 google robots.txt

3

Может ли индекс карты сайта содержать другие индексы карты сайта?

У меня есть двуязычный веб-сайт с индексом карты сайта для каждого языка, который ссылается на несколько различных карт сайта (один для видео, один для статического контента и один для статей). Я хотел бы представить другую карту сайта, которая связывает индексы карты сайта, чтобы я мог связать эту карту сайта в …

11 google sitemap robots.txt

1

Как работает «Noindex:» в robots.txt?

Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую страницу и не позволит им проиндексировать вторую страницу. Эта директива robots.txt поддерживается Google …

10 web-crawlers robots.txt googlebot noindex

2

Разрешить сканировать сайт могут только боты Google и Bing

Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

10 web-crawlers robots.txt

1

Объединение пользовательских агентов в robots.txt

Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

3

Как я могу использовать robots.txt, чтобы запретить только поддомен?

Моя база кода распределяется между несколькими средами (живой, постановка, Dev) и суб-доменов ( staging.example, dev.exampleи т.д.) , и только два должны быть разрешены для сканирования (то есть. , www.exampleА example). Обычно я изменяю /robots.txtи добавляю Disallow: /, но из-за общей базы кода я не могу изменить, /robots.txtне затрагивая все (под) …

10 domains subdomain robots.txt multi-subdomains

6

Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?

У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого: User-agent: * Disallow: / Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам: User-agent: ia_archiver Disallow: Но я уже сделал то, …

10 web-crawlers robots.txt internet-archive

10

Нужно остановить ботов от убийства моего веб-сервера

У меня очень серьезные проблемы с ботами на некоторых моих сайтах в моей учетной записи хостинга. Боты используют более 98% ресурсов моего процессора и 99% пропускной способности для всей моей учетной записи хостинга. Эти боты генерируют более 1 ГБ трафика в час для моих сайтов. Реальный человеческий трафик для всех …

9 php htaccess robots.txt

1

Должен ли я блокировать страницы архива Wordpress от поисковых систем?

Я использую WordPress и /sample-post/URL-адреса для своих сообщений и /yyyy/mm/для архивов. Google полностью проиндексировал сайт. Поскольку в архивах в настоящее время отображаются полные записи, я подумал, что не должен позволять Google индексировать страницы архива, поскольку они содержат полные записи, и это будет дублированный контент. Таким образом, мой robots.txt содержит: Disallow: …

9 seo wordpress robots.txt duplicate-content google-index

4

Роботы, запрещенные доменом, все еще перечислены в результатах поиска.

Таким образом, на всех наших сайтах, которые не являются поисковыми, мы применили файл robots.txt (см. Как исключить веб-сайт из результатов поиска Google в режиме реального времени? Или любой другой подобный вопрос). Однако, если условия поиска достаточно конкретны, сам домен можно найти по результатам. Пример этого можно найти здесь . Как …

9 seo robots.txt

3

Когда вы перемещаете сайт с помощью перенаправления 301, вы должны настроить robots.txt, запрещающий роботам сканировать старый адрес?

Сайт, над которым я работаю, переместил поддомен в другой поддомен с помощью перенаправления 301. Однако при проверке файла robots.txt старого поддоменов у него есть файл robots.txt, который запрещает поисковым роботам сканировать его. Это правильный ход? Я считаю, что нет, потому что сканеры не смогут сканировать старый сайт, чтобы увидеть коды …

8 seo redirects robots.txt

5

Должны ли мы изменить наш Joomla robots.txt после объявления Google о сканировании CSS и JavaScript?

Наткнулся на объявление от Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Здесь утверждается: Для оптимального рендеринга и индексации в нашем новом руководстве указано, что вы должны разрешить роботу Google доступ к файлам JavaScript, CSS и изображениям, которые используют ваши страницы. Это обеспечивает оптимальную визуализацию и индексацию вашего сайта. Запрещение сканирования файлов Javascript или CSS в …

8 seo google-search-console robots.txt joomla

4

Robots.txt против Sitemap - кто победит в конфликте

Если я заблокирую каталог / foo в robots.txt, но мой xml-файл содержит URL-адреса с / foo, будут ли URL-адреса в карте сайта обнаруживаться Google и другими поисковыми системами? Другими словами, превосходит ли карта сайта robots.txt? Я так думаю, но не уверен.

8 robots.txt xml-sitemap

2

Как правильно обрабатывать Allow and Disallow в robots.txt?

Я запускаю довольно масштабный веб-сканер. Мы очень стараемся использовать сканер в рамках общепринятых стандартов сообщества, в том числе уважая robots.txt. Мы получаем очень мало жалоб на сканер, но когда мы делаем это, большинство касается нашей работы с robots.txt. Чаще всего веб-мастер допустил ошибку в своем файле robots.txt, и мы любезно …

8 robots.txt

Вопросы с тегом «robots.txt»