Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?

10

У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого:

User-agent: *
Disallow: /

Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам:

User-agent: ia_archiver
Disallow:

Но я уже сделал то, что они указали пару лет назад, по крайней мере, я добавил следующее:

User-agent: archive.org_bot
Disallow:

Тогда есть другой источник, утверждающий, что вы должны добавить два выше Disallows плюс еще один:

User-agent: ia_archiver-web.archive.org 
Disallow:

Обратите внимание, что вам нужно поставить, Disallow: /если вы не хотите, чтобы бот архивировал ваш сайт.

Произошли ли изменения с ботом IA? Если да, то когда?

Какой рекомендуемый способ? Должен ли я сейчас разрешить все три и надеяться, что IA не изменит имя своего бота в будущем?

web-crawlers robots.txt internet-archive

— kqw
источник

Я знал только о ia_archiver. Остальные меня удивляют. У вас есть ссылки для этого? Причина, по которой я спрашиваю, заключается в том, что archive.org все равно посещает мой сайт, и мне пришлось заблокировать их по IP-адресу. Вы также упомянуть , что вы ли хотите разрешить archive.org но говорить о блокировании его. Я просто хочу прояснить это, и ссылки могут помочь всем нам. Заранее спасибо!

— closetnoc

Обновил вопрос. Надеюсь, теперь стало понятнее. Крошечная версия: я не хочу поисковых роботов на этом сайте, я хочу ботов archive.org. Но, может быть, я должен поменять вопрос, потому что это то, что ищет большинство людей?

— KQW

На самом деле, если вы не используете ничего из этого, вы разрешаете archive.org при условии, что вы не блокируете общим оператором.

— closetnoc

Использование только «ia_archiver» также должно блокировать «ia_archiver-web.archive.org», так что последнее может показаться ненужным (если этот бот следует стандарту).

— MrWhite

Видите ли вы бот ia-archiver (или archive.org_bot) в журналах доступа?

— MrWhite

9

Обновление : Как отмечает @KevinFegan в комментариях, их документация изменилась. В приведенной ниже части описывается, как Интернет-архив обрабатывал это в прошлом (по крайней мере, в 2014 году).

Их FAQ Как я могу исключить страницы моего сайта из Wayback Machine? ссылается на удаление документов с машины Wayback , которая документирует, что их бот называется ia_archiver.

Так что эта запись должна позволять их боту сканировать весь ваш сайт:

User-agent: ia_archiver
Disallow:

— ОООНР
источник

Порядок групп не должен иметь значения. Наиболее специфичный (то есть. Длинный) агент пользователя , который соответствует тот , который побеждает. *Группа соответствует только тогда , когда ни одна другая группа не соответствует.

— MrWhite

@ w3d: Вы правы, я удалил эту часть. Спасибо за информацию :)

— unor

1

Видимо, со временем это изменилось. Я не могу найти "ia_archiver" на предоставленной вами странице часто задаваемых вопросов , а также на этой странице блога Archive.org от 25 апреля 2017 года Марк Грэм говорит: пользовательский агент ia_archiver используется Интернетом Alexa, а не интернет-архивом.

— Кевин Феган

@KevinFegan: Спасибо за ваше уведомление! Я обновил свой ответ, чтобы перейти к архивным версиям документации, содержащей имя.

— ОООНР

Мне нравится, как они намеренно усложняют ситуацию, чтобы они могли уйти!

— Ultralisk

5

Здесь действительно есть 2 вопроса:

Будет ли robots.txtна вашем сайте запрещать (блокировать) обратный путь от сканирования вашего сайта.
Будет ли Wayback сканировать ваш сайт.

Для пункта № 1:
Как уже говорили другие, правильная запись для robots.txt:

User-agent: ia_archiver
Disallow:

Имейте в виду, что Wayback может потребоваться некоторое время (возможно, довольно долгое время), чтобы заметить любые изменения, внесенные вами в robots.txt.

Для того, чтобы проверить , если robots.txtна вашем сайте будет позволять Вайбак сканировать ваш сайт:

Перейдите по этому адресу: https://archive.org/web/
В поле в верхней части страницы введите URL-адрес страницы вашего сайта и нажмите "Browse History"кнопку.
Или в поле «Сохранить страницу сейчас» (в настоящее время в нижней части справа) введите URL-адрес страницы на своем сайте и нажмите "Save Page"кнопку.

На этом этапе вы должны увидеть 1 из 3 вещей:

Вы увидите сообщение об ошибке, указывающее, что Wayback не может получить доступ к страницам на этом сайте из-за "robots.txt".
Вы увидите «календарь» исторических точек сохранения для страницы на вашем сайте. В этом случае вы знаете, что Wayback НЕ заблокирован для сканирования вашего сайта.
Или вы увидите сообщение о том, что Wayback не имеет архива этой страницы, и предложение щелкнуть ссылку, чтобы добавить страницу в Wayback. В этом случае вы также знаете, что Wayback НЕ заблокирован для сканирования вашего сайта.

Теперь для пункта № 2:

Будет ли Wayback сканировать ваш сайт?

То, что вы разрешаете Wayback сканировать ваш сайт, не означает, что они (когда-либо) будут сканировать ваш сайт.

В соответствии с Wayback FAQ (акцент добавлен):

Как я могу включить свой сайт в Wayback Machine?

Большая часть наших архивных веб-данных поступает от наших собственных сканирований или сканирований Alexa Internet. Ни у одной организации нет "сканировать мой сайт сейчас!" процесс представления. Сканирования в интернет-архиве, как правило, находят сайты, которые хорошо связаны с другими сайтами . Лучший способ убедиться, что мы находим ваш веб-сайт, это убедиться, что он включен в онлайн-каталоги и что аналогичные / связанные сайты ссылаются на вас.

Alexa Internet использует свои собственные методы для поиска сайтов для сканирования. Может быть полезно установить бесплатную панель инструментов Alexa и посетить сайт, который вы хотите сканировать, чтобы убедиться, что они знают об этом.

Независимо от того, кто сканирует сайт, вы должны убедиться, что правила robots.txt и директивы META robots вашего сайта не говорят сканерам избегать вашего сайта.

Обновление: 09 мая 2017 года

Другие оставили комментарии / ответы, указывающие, что Archive.org больше не уважает robots.txt. Возможно, это «незавершенное производство», и в конечном итоге оно будет иметь место, но я еще не видел этого нового поведения.

Случай для этого , кажется, исходит из этой статьи: Robots.txt: robots.txt : предсмертная записка по archiveteam.org. Хотя на этой странице мало что можно сказать о Robots.txt, но нигде не упоминается, что Archive.org больше не будет чтить robots.txt.

Также следует отметить, что эта статья размещена на сайте archiveteam.org, который, безусловно, нет archive.org, и я не уверен, что между ( archive.orgи ) есть (официальные) отношения archiveteam.org.

Фактически, эта страница об Archive Team , кажется, объявляет различие между и (выделение добавлено):archive.org archive.orgarchiveteam.org

Созданная в 2009 году Группа архивов ( не путать с командой archive.org Archive-It) - это мошеннический коллектив архивистов, занимающийся сохранением копий быстро умирающих или удаленных веб-сайтов во имя истории и цифрового наследия. ...

В любом случае я решил попробовать и обнаружил, что, по крайней мере, в это время Archive.org ВСЕ ЕЩЕ чтит robots.txt:

Я нашел случайный предмет на eBay: Item #: 131795294232
Нажмите для просмотра проданных товаров:

Откроется страница «Предметы проданы»: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Скопируйте ссылку в буфер обмена.
Перейдите на web.archive.org и вставьте ссылку с eBay.
Вы увидите, что это archive.orgозначает, что «Страница не может быть отображена из-за robots.txt».

Итак, в настоящее время я остаюсь неуверенным, но я бы хотел оказаться неправым ... было бы здорово, если бы это было правдой.

— Кевин Феган
источник

Блокировка archive.org с помощью robots.txt больше не будет работать:

— wortwart

@wortwart - было бы здорово, если бы это было так (см. обновление, которое я добавил к своему ответу). У вас есть ссылки на информацию об этом?

— Кевин Феган,

Конечно: blog.archive.org/2017/04/17/… "Несколько месяцев назад мы перестали ссылаться на файлы robots.txt на правительственных и военных веб-сайтах США (...). Сейчас мы стремимся сделать это более широко. "

— вортварт

4

Обновление 2017

Архив бот теперь не заботится о вашем robots.txt.

Если вы действительно хотите заблокировать это, отправьте им электронное письмо в соответствии с этой страницей или заблокируйте их IP-адрес через htaccess.

— Goyllo
источник

2

Смотрите обновление мая 2017 года мой ответ: Как правильно (дис) позволяет Archive.org бот ...? . Бот Archive по- прежнему заботится о файле robots.txt, за исключением правительственных сайтов. Обратите внимание, что упомянутая вами статья была с www.archiveteam.org, которая не связана с Archive.org. --->

— Кевин Феган

---> Хотя на этой странице мало что можно сказать хорошего о «Robots.txt», нигде не упоминается, что Archive.org больше не будет чтить robots.txt. Соответствующая статья Archive.org: Robots.txt, предназначенный для поисковых систем, плохо работает для веб-архивов . «Несколько месяцев назад мы перестали ссылаться на файлы robots.txt на правительственных и военных веб-сайтах США (...). Сейчас мы стремимся сделать это более широко».

— Кевин Феган

Да. Теперь Архив полностью игнорирует запросы на удаление.

— Ultralisk

3

Запись robots.txt ia_archiver Disallow (с "/") должна подойти для описываемой вами необходимости ("сохранить на вечность", но пока не публично).

Я только что сделал быстрый тест, комментируя запись ia_archiver Disallow для сайта, на котором она была как минимум последние 10 лет. Затем я посмотрел сайт на archive.org/web, и он обнаружил захваты, которые он собрал в 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 и 2017 годах! Это означает, что Archive.org никогда строго не соблюдал то, что другие считали заявлением «не архивировать» в течение этих лет, а просто не выставлял архивные копии.

— Майк
источник

2

"ia_archiver" теперь (ab) используется Alexa, некоторые источники говорят: 1 , 2 .
Archive.org сейчас (2018) больше не уважает robots.txt. 3 Не только для страниц mil / gov, но и для всех страниц. По опыту работы с моим личным веб-сайтом, на котором с 2012 года имеется и.о.о. robots.txt; и теперь я внезапно обнаружил, что он сканировал и спасал их все годы, и теперь вся история видна. Это чувство предательства. > :-(

— деревенщина
источник

1

Я попробовал robots.txtметод, и он не работал. Поэтому я связался с сайтом по электронной почте info@archive.org:

Привет,

Можете ли вы удалить мой личный сайт dimitarnestorov.com из вашего архива?

Спасибо!

Димитар

И я получил следующий ответ:

Привет,

Интернет-архив может исключать веб-сайты из Wayback Machine (web.archive.org), но мы сначала с уважением просим вас помочь нам подтвердить, что вы являетесь владельцем сайта или автором контента dimitarnestorov.com, выполнив одно из следующих действий:

(Примечание. Некоторые из этих опций могут ссылаться на содержимое, расположенное в предыдущих записях Wayback Machine, и / или на документацию, которую вы, возможно, имели отношение к указанному периоду времени.)

Разместите свой запрос на текущей версии сайта (и отправьте нам ссылку).

отправьте запрос с основного адреса электронной почты, указанного на сайте, и покажите нам, где он может быть расположен (если он есть).

отправьте запрос из электронного письма владельца регистрации (если оно доступно для просмотра при поиске в WHOIS, на которое вы можете связать нас) или из электронного письма веб-мастера, указанного на сайте.

укажите нам, где ваша личная информация (имя, точка контакта, изображение самого себя) появляется на сайте таким образом, чтобы идентифицировать вас как владельца сайта или автора контента, который вы хотите исключить - в этом случае мы просим проверить вашу личность путем сканирования действительного удостоверения личности с фотографией (конфиденциальная информация, такая как дата рождения, адрес или номер телефона, может быть отредактирована).

перешлите нам сообщение от хостинговой компании или регистратора, адресованное вам как владельцу домена.

(Примечание: простого упоминания чьего-либо имени / имени пользователя и / или гиперссылки / перенаправления между сайтами / страницами / учетными записями само по себе обычно недостаточно для исключения архивов.)

Если ни один из этих вариантов недоступен, сообщите нам об этом в ответе на это письмо.

Мы будем благодарны, если вы поможете нам сохранить как можно большую часть архива. Поэтому, пожалуйста, сообщите нам, если есть только определенные URL-адреса или каталоги, которые вас интересуют, чтобы мы могли оставить остальные архивы доступными.

Как вы, возможно, знаете, Internet Archive является некоммерческой цифровой библиотекой, которая стремится поддерживать через Wayback Machine свободно доступную историческую запись Интернета. Материалы в архивах не используются интернет-архивом для получения коммерческой выгоды.

Интернет-архив

Я создал wayback-removal-request.htmlсо следующим контентом (даже без действительного HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Загрузил его и ответил на их электронную почту с URL-адресом, с которого была доступна веб-страница, и позже я получил следующий ответ:

Привет,

Сайт / URL, указанный в вашем электронном письме ниже, теперь отправлен для исключения из Wayback Machine по адресу http://www.archive.org (в отношении всех прошлых снимков):

dimitarnestorov.com

Пожалуйста, подождите до дня, пока автоматизированные части процесса начнут действовать, и чтобы изменения вступили в силу.

Интернет-архив

Когда я проверил пару часов спустя, мой сайт был удален.

— Димитар Несторов
источник