Как заархивировать весь сайт?

15

Чтобы сохранить одну страницу через Wayback Machine, я могу перейти на:

http://web.archive.org/save/https://somewebsite.example.com/

Как я могу рекурсивно архивировать сайт на Wayback Machine ?

Есть такой проект, как wayback-machine-downloader, но я ищу функцию, которая позволяет рекурсивно загружать сайт.

archive.org

— kenorb
источник

12

Поскольку Wayback Machine не предоставляет такой возможности, я нашел обходной путь.

Во-первых, отразите сайт, используя wget, например,
```
wget -m https://example.com/
```
Затем используйте curlдля архивирования всех страниц, которые вы скачали по одной.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{Примечание: Вы можете изменить , .htmlчтобы .php, или включать в себя определенный тип файлов.}

— kenorb
источник

Если сайт не использует расширения (такие как html или php - как SE настроен), как вы адаптируете свою команду?

— дб

2

Вы можете изменить , -name "*.html"чтобы -type fвключить все файлы.

— Кенорб

Как это работает с параметрами запроса?

— Mithical

6

Если вы хотите заархивировать небольшой веб-сайт, команда архивов поддерживает ArchiveBot , бота IRC, где вы можете запросить сканирование веб-сайтов. Затем команда архивов отправит просканированные страницы на устройство обратной связи Интернет-архива.

— Flux
источник

Это невероятно полезно.

— Парень

1

Wayback Machine не предлагает способ представить весь сайт, только одну страницу, как вы уже нашли. Об этом говорится в нескольких пунктах их FAQ по Wayback Machine :

Могу ли я добавить страницы в Wayback Machine?

На https://archive.org/web вы можете использовать функцию «Сохранить страницу сейчас», чтобы сохранить определенную страницу один раз. В настоящее время это не добавляет URL-адрес для любых будущих сканирований и не сохраняет более одной страницы. Он не сохраняет несколько страниц, каталогов или целых сайтов .

а также

Как я могу включить свой сайт в Wayback Machine?

Большая часть наших архивных веб-данных поступает от наших собственных сканирований или сканирований Alexa Internet. Ни у одной организации нет "сканировать мой сайт сейчас!" процесс представления . Сканирования в интернет-архиве обычно обнаруживают сайты, которые хорошо связаны с другими сайтами. Лучший способ убедиться, что мы находим ваш веб-сайт, это убедиться, что он включен в онлайн-каталоги и что аналогичные / связанные сайты ссылаются на вас.

— Джон С
источник

1

Это не ответ на вопрос. Только потому, что нет официального способа сделать это, задача не является невозможной для выполнения. На самом деле, довольно просто создать скрипт, который рекурсивно добавляет ссылки.

— дб

@db, ответ Кенорба, похоже, на то, что ты просил. Кстати, этот ответ более полезен для меня в данный момент, так как я просто хотел, чтобы WaybackMachine захватил одну страницу для меня сейчас.

— cp.engr

1

В этой статье на archive.org также предлагается платный сервис, который будет выполнять сканирование за вас так часто, как вы захотите:

Зарегистрировать учетную запись Archive-It

Архив - это служба подписки, предоставляемая интернет-архивом, которая позволяет вам запускать собственные проекты сканирования без каких-либо технических знаний. Скажите нам, что сканировать и как часто его сканировать, и мы выполняем сканирование и помещаем результаты в Wayback Machine.

Вероятно, это не то, что вам нужно, но для некоторых компаний эта услуга может быть полезна. Я предполагаю, что это помогает финансировать archive.org, который в противном случае является бесплатным.

— Stason
источник