Как настроить robots.txt, чтобы разрешить все?

116

My robots.txtв Инструментах Google для веб-мастеров показывает следующие значения:

User-agent: *
Allow: /

Что это означает? У меня недостаточно знаний об этом, поэтому ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой веб-сайт, это правильная конфигурация?

robots.txt

— Raajpoot
источник

Разрешить не все поисковые роботы, используйте вместо него disavow: (т. Е. Без URL-адреса после:). Так безопаснее (см .: youtu.be/G29Zt-UH_Ko )

— Жером Верстриндж,

153

Этот файл предоставит доступ всем сканерам

User-agent: *
Allow: /

Это в основном позволяет всем пользовательским агентам (*) подключаться ко всем частям сайта (/).

— Джим
источник

11

Правильно, если вам не нужно отменять разрешающую часть. Нет «разрешить», поэтому сделайте это: «User-agent: * Disallow:», как показано здесь: robotstxt.org/robotstxt.html

— vsdev

Есть разрешающая часть. Проверьте официальные документы Google developers.google.com/search/reference/robots_txt#allow

— Хасан Сефа Озалп

60

Если вы хотите разрешить каждому боту сканировать все, это лучший способ указать это в файле robots.txt:

User-agent: *
Disallow:

Обратите внимание, что Disallowполе имеет пустое значение, что означает, согласно спецификации :

Любое пустое значение означает, что можно получить все URL-адреса.

Ваш способ (с Allow: /вместо Disallow:) тоже работает, но Allowне является частью исходной спецификации robots.txt , поэтому он поддерживается не всеми ботами (хотя многие популярные, например, Googlebot ). Тем не менее, нераспознанные поля должны игнорироваться, а для ботов, которые не распознают Allow, результат в любом случае будет таким же: если ничего не запрещено сканировать (с помощью Disallow), сканирование разрешено для всего.
Однако формально (согласно исходной спецификации) это недействительная запись, потому что Disallowтребуется хотя бы одно поле:

В записи должно присутствовать хотя бы одно поле Disallow.

— ОООНР
источник

17

Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента для полноты картины.

Согласно официальной документации , существует четыре способа предоставить роботам полный доступ к вашему сайту.

Чистота:

Укажите глобальный сопоставитель с запрещающим сегментом, как указано @unor. Итак, вы /robots.txtвыглядите вот так.

User-agent: *
Disallow:

Взлом:

Создайте /robots.txtфайл без содержимого. По умолчанию будет разрешено все для всех типов Bots.

Мне все равно:

Не создавайте /robots.txtвообще. Что должно дать те же результаты, что и два выше.

Уродливый:

Из документации по метатегам robots: вы можете использовать следующий метатег на всех своих страницах своего сайта, чтобы сообщить Bots, что эти страницы не должны индексироваться.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Чтобы применить это ко всему сайту, вам необходимо добавить этот метатег для всех своих страниц. И этот тег следует размещать строго под своим HEADтегом на странице. Подробнее об этом метатеге здесь .

— Раджа Анбажаган
источник

Однако отсутствие robots.txt и Wordpress - плохая комбинация, потому что WordPress генерирует виртуальный robots.txt. Если вы не довольны тем, что генерирует WordPress.

— Джеспер

8

Это означает, что вы разрешаете каждому ( *) пользовательскому агенту / сканеру получить доступ к корню ( /) вашего сайта. Ты в порядке.

— Хорди
источник

5

согласно robotstxt.org/robotstxt.html поля «Разрешить» нет, поэтому я буду осторожен при его использовании. Википедия упоминает «Некоторые крупные Искатель поддерживают разрешающую директиву , которая может противодействовать следующую директиву Disallow.»: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij