Как скачать сайт с архива Wayway Machine?


84

Я хочу получить все файлы для данного сайта на archive.org. Причины могут включать в себя:

  • оригинальный автор не заархивировал свой собственный сайт и теперь он не в сети, я хочу сделать из него публичный кеш
  • Я оригинальный автор какого-то сайта и потерял часть контента. Я хочу восстановить это
  • ...

Как мне это сделать ?

Принимая во внимание тот факт, что машина обратной передачи archive.org является очень особенной: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которая может отсутствовать. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.


14
Я столкнулся с той же проблемой, и я кодировал драгоценный камень. Для установки: gem install wayback_machine_downloader. Запустите wayback_machine_downloader, указав в качестве параметра базовый URL-адрес веб-сайта, который вы хотите получить: wayback_machine_downloader http://example.comДополнительная информация: github.com/hartator/wayback_machine_downloader
Hartator,

3
Пошаговая справка для пользователей Windows (win8.1 64bit для меня) новичок в Ruby, вот что я сделал, чтобы он заработал: 1) Я установил rubyinstaller.org/downloads, затем запустил "rubyinstaller-2.2.3-x64 .exe "2) скачал zip-файл github.com/hartator/wayback-machine-downloader/archive/… 3) разархивировал zip-файл на моем компьютере 4) поищите в меню« Пуск »Windows« Запустить командную строку с Ruby »(будет продолжение)
Erb

3
5) следуйте инструкциям github.com/hartator/wayback_machine_downloader (например, .g: скопируйте и вставьте этот «gem install wayback_machine_downloader» в приглашение. Нажмите Enter, и он установит программу ... затем следуйте инструкциям «Использование»). 6) после захвата вашего сайта вы найдете файлы в C: \ Users \ YOURusername \ sites
Erb

Ответы:


64

Я пробовал разные способы загрузки сайта и, наконец, нашел загрузчик машин обратного хода, о котором Хартатор упоминал ранее (так что все отзывы идут к нему, пожалуйста), но я просто не заметил его комментарий к вопросу. Чтобы сэкономить ваше время, я решил добавить гем wayback_machine_downloader в качестве отдельного ответа.

На сайте http://www.archiveteam.org/index.php?title=Restoring перечислены следующие способы загрузки с archive.org:

  • Wayback Machine Downloader , небольшой инструмент в Ruby для загрузки любого веб-сайта с Wayback Machine. Бесплатный и с открытым исходным кодом. Мой выбор!
  • Уоррик - Главный сайт, кажется, не работает.
  • Wayback Downloader , сервис, который загрузит ваш сайт с Wayback Machine и даже добавит плагин для Wordpress. Не бесплатно.

я также написал «wayback downloader», в php, загрузке ресурсов, настройке ссылок и т.д .: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, на странице, которую вы связали, что такое захват команды архивов ??
Пейсер

1
Октябрь 2018 года, Wayback Machine Downloader все еще работает.
Этот бразильский парень

@Pacerier это означает (наборы) WARC-файлов, созданных Archive Team (и обычно поступающих на машину обратного хода Internet Archive), см. Archive.org/details/archiveteam
Nemo

13

Это можно сделать с помощью сценария оболочки bash в сочетании сwget .

Идея состоит в том, чтобы использовать некоторые функции URL машины обратного хода:

  • http://web.archive.org/web/*/http://domain/*перечислит все сохраненные страницы из http://domain/рекурсивно. Его можно использовать для создания индекса страниц для загрузки и избежать эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки есть также дата первой версии и последней версии.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageПеречислю все версии http://domain/pageза год ГГГГ. На этой странице можно найти конкретные ссылки на версии (с точной отметкой времени)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageвернет неизмененную страницу http://domain/pageв указанное время. Обратите внимание на токен id_ .

Это основы для создания скрипта для загрузки всего из заданного домена.


7
Вы должны действительно использовать API вместо этого archive.org/help/wayback_api.php Страницы справки Википедии предназначены для редакторов, а не для широкой публики. Так что эта страница ориентирована на графический интерфейс, который заменен и не подходит для этой задачи.
Немо

Вероятно, было бы проще просто сказать, взять URL (например http://web.archive.org/web/19981202230410/http://www.google.com/) и добавить id_в конце «числа даты». Тогда вы получите что-то вроде http://web.archive.org/web/19981202230410id_/http://www.google.com/.
Айкам

1
Сценарий Python также можно найти здесь: gist.github.com/ingamedeo/…
Амедео Бараджиола

4

Для этой цели специально разработан инструмент Warrick: https://code.google.com/p/warrick/.

Он основан на протоколе Memento.


3
Насколько мне удалось использовать это (в мае 2017 года), он просто восстанавливает то, что хранит archive.is, и в значительной степени игнорирует то, что находится на archive.org; он также пытается получить документы и изображения из кешей Google / Yahoo, но терпит неудачу. Уоррик несколько раз клонировался на GitHub с момента закрытия Google Code, возможно, есть несколько лучших версий.
Гвинет Ллевелин

0

Вы можете сделать это легко с wget.

wget -rc --accept-regex '.*ROOT.*' START

Где ROOTнаходится корневой URL веб-сайта и STARTначальный URL. Например:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Обратите внимание, что вы должны обойти рамку переноса веб-архива для STARTURL. В большинстве браузеров вы можете щелкнуть правой кнопкой мыши на странице и выбрать «Показать только этот кадр».

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.