Здесь действительно есть 2 вопроса:
- Будет ли
robots.txt
на вашем сайте запрещать (блокировать) обратный путь от сканирования вашего сайта.
- Будет ли Wayback сканировать ваш сайт.
Для пункта № 1:
Как уже говорили другие, правильная запись для robots.txt:
User-agent: ia_archiver
Disallow:
Имейте в виду, что Wayback может потребоваться некоторое время (возможно, довольно долгое время), чтобы заметить любые изменения, внесенные вами в robots.txt.
Для того, чтобы проверить , если robots.txt
на вашем сайте будет позволять Вайбак сканировать ваш сайт:
- Перейдите по этому адресу: https://archive.org/web/
- В поле в верхней части страницы введите URL-адрес страницы вашего сайта и нажмите
"Browse History"
кнопку.
- Или в поле «Сохранить страницу сейчас» (в настоящее время в нижней части справа) введите URL-адрес страницы на своем сайте и нажмите
"Save Page"
кнопку.
На этом этапе вы должны увидеть 1 из 3 вещей:
- Вы увидите сообщение об ошибке, указывающее, что Wayback не может получить доступ к страницам на этом сайте из-за "robots.txt".
- Вы увидите «календарь» исторических точек сохранения для страницы на вашем сайте. В этом случае вы знаете, что Wayback НЕ заблокирован для сканирования вашего сайта.
- Или вы увидите сообщение о том, что Wayback не имеет архива этой страницы, и предложение щелкнуть ссылку, чтобы добавить страницу в Wayback. В этом случае вы также знаете, что Wayback НЕ заблокирован для сканирования вашего сайта.
Теперь для пункта № 2:
Будет ли Wayback сканировать ваш сайт?
То, что вы разрешаете Wayback сканировать ваш сайт, не означает, что они (когда-либо) будут сканировать ваш сайт.
В соответствии с Wayback FAQ (акцент добавлен):
Большая часть наших архивных веб-данных поступает от наших собственных сканирований или сканирований Alexa Internet. Ни у одной организации нет "сканировать мой сайт сейчас!" процесс представления. Сканирования в интернет-архиве, как правило, находят сайты, которые хорошо связаны с другими сайтами . Лучший способ убедиться, что мы находим ваш веб-сайт, это убедиться, что он включен в онлайн-каталоги и что аналогичные / связанные сайты ссылаются на вас.
Alexa Internet использует свои собственные методы для поиска сайтов для сканирования. Может быть полезно установить бесплатную панель инструментов Alexa и посетить сайт, который вы хотите сканировать, чтобы убедиться, что они знают об этом.
Независимо от того, кто сканирует сайт, вы должны убедиться, что правила robots.txt и директивы META robots вашего сайта не говорят сканерам избегать вашего сайта.
Обновление: 09 мая 2017 года
Другие оставили комментарии / ответы, указывающие, что Archive.org больше не уважает robots.txt. Возможно, это «незавершенное производство», и в конечном итоге оно будет иметь место, но я еще не видел этого нового поведения.
Случай для этого , кажется, исходит из этой статьи: Robots.txt: robots.txt : предсмертная записка по archiveteam.org
. Хотя на этой странице мало что можно сказать о Robots.txt, но нигде не упоминается, что Archive.org больше не будет чтить robots.txt.
Также следует отметить, что эта статья размещена на сайте archiveteam.org
, который, безусловно, нет archive.org
, и я не уверен, что между ( archive.org
и ) есть (официальные) отношения archiveteam.org
.
Фактически, эта страница об Archive Team , кажется, объявляет различие между и (выделение добавлено):archive.org
archive.org
archiveteam.org
Созданная в 2009 году Группа архивов ( не путать с командой archive.org Archive-It) - это мошеннический коллектив архивистов, занимающийся сохранением копий быстро умирающих или удаленных веб-сайтов во имя истории и цифрового наследия. ...
В любом случае я решил попробовать и обнаружил, что, по крайней мере, в это время Archive.org ВСЕ ЕЩЕ чтит robots.txt:
- Я нашел случайный предмет на eBay: Item #: 131795294232
- Нажмите для просмотра проданных товаров:
- Откроется страница «Предметы проданы»: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Скопируйте ссылку в буфер обмена.
- Перейдите на web.archive.org и вставьте ссылку с eBay.
- Вы увидите, что это
archive.org
означает, что «Страница не может быть отображена из-за robots.txt».
Итак, в настоящее время я остаюсь неуверенным, но я бы хотел оказаться неправым ... было бы здорово, если бы это было правдой.