Как заархивировать весь сайт?


15

Чтобы сохранить одну страницу через Wayback Machine, я могу перейти на:

Как я могу рекурсивно архивировать сайт на Wayback Machine ?


Есть такой проект, как wayback-machine-downloader, но я ищу функцию, которая позволяет рекурсивно загружать сайт.

Ответы:


12

Поскольку Wayback Machine не предоставляет такой возможности, я нашел обходной путь.

  1. Во-первых, отразите сайт, используя wget, например,

    wget -m https://example.com/
    
  2. Затем используйте curlдля архивирования всех страниц, которые вы скачали по одной.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Примечание: Вы можете изменить , .htmlчтобы .php, или включать в себя определенный тип файлов.


Если сайт не использует расширения (такие как html или php - как SE настроен), как вы адаптируете свою команду?
дб

2
Вы можете изменить , -name "*.html"чтобы -type fвключить все файлы.
Кенорб

Как это работает с параметрами запроса?
Mithical

6

Если вы хотите заархивировать небольшой веб-сайт, команда архивов поддерживает ArchiveBot , бота IRC, где вы можете запросить сканирование веб-сайтов. Затем команда архивов отправит просканированные страницы на устройство обратной связи Интернет-архива.


Это невероятно полезно.
Парень

1

Wayback Machine не предлагает способ представить весь сайт, только одну страницу, как вы уже нашли. Об этом говорится в нескольких пунктах их FAQ по Wayback Machine :

Могу ли я добавить страницы в Wayback Machine?

На https://archive.org/web вы можете использовать функцию «Сохранить страницу сейчас», чтобы сохранить определенную страницу один раз. В настоящее время это не добавляет URL-адрес для любых будущих сканирований и не сохраняет более одной страницы. Он не сохраняет несколько страниц, каталогов или целых сайтов .

а также

Как я могу включить свой сайт в Wayback Machine?

Большая часть наших архивных веб-данных поступает от наших собственных сканирований или сканирований Alexa Internet. Ни у одной организации нет "сканировать мой сайт сейчас!" процесс представления . Сканирования в интернет-архиве обычно обнаруживают сайты, которые хорошо связаны с другими сайтами. Лучший способ убедиться, что мы находим ваш веб-сайт, это убедиться, что он включен в онлайн-каталоги и что аналогичные / связанные сайты ссылаются на вас.


1
Это не ответ на вопрос. Только потому, что нет официального способа сделать это, задача не является невозможной для выполнения. На самом деле, довольно просто создать скрипт, который рекурсивно добавляет ссылки.
дб

@db, ответ Кенорба, похоже, на то, что ты просил. Кстати, этот ответ более полезен для меня в данный момент, так как я просто хотел, чтобы WaybackMachine захватил одну страницу для меня сейчас.
cp.engr

1

В этой статье на archive.org также предлагается платный сервис, который будет выполнять сканирование за вас так часто, как вы захотите:

  1. Зарегистрировать учетную запись Archive-It

Архив - это служба подписки, предоставляемая интернет-архивом, которая позволяет вам запускать собственные проекты сканирования без каких-либо технических знаний. Скажите нам, что сканировать и как часто его сканировать, и мы выполняем сканирование и помещаем результаты в Wayback Machine.

Вероятно, это не то, что вам нужно, но для некоторых компаний эта услуга может быть полезна. Я предполагаю, что это помогает финансировать archive.org, который в противном случае является бесплатным.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.