Примечание : этот ответ становится все более устаревшим.
Крупнейшим вкладчиком в интернет-коллекцию Интернет-архива стала Alexa Internet. Материал, который Alexa сканирует для своих целей, был передан в дар IA через несколько месяцев. Добавление правила запрета, упомянутого в вопросе, не влияет на эти обходы, но Wayback будет «задним числом» соблюдать их (при отказе в доступе материал все равно будет в архиве - вы должны исключить робота Алекса, если вы действительно хотите не пустить свой материал интернет-архива).
Могут быть способы повлиять на сканирование Алексы, но я не знаком с этим.
С тех пор как IA разработал свой собственный сканер (Heritrix), они начали выполнять свои собственные обходы, но они, как правило, являются целевыми обходами (они выполняют выборочные обходы для Библиотеки Конгресса и делали национальные обходы для Франции и Австралии и т. Д.). Они не участвуют в устойчивых сканированиях мирового масштаба, которые проводят Google и Alexa. Крупнейшим сканированием IA был специальный проект для сканирования 2 миллиардов страниц.
Поскольку эти обходы выполняются по расписанию, которое определяется конкретными факторами проекта, вы не можете влиять на то, как часто они посещают ваш сайт или посещают ли они ваш сайт.
Единственный способ напрямую повлиять на то, как и когда IA сканирует ваш сайт, - это использовать их сервис Archive-It . Этот сервис позволяет указывать пользовательские обходы. Полученные данные будут (в конечном итоге) включены в веб-коллекцию IA. Это, однако, платная услуга подписки.