Восстановление потерянного сайта без резервной копии?


262

К сожалению, наш хостинг-провайдер потерял 100% данных, поэтому я потерял весь контент для двух размещенных веб-сайтов блогов:

(Да, да, я абсолютно должен был сделать полные резервные копии за пределами площадки. К сожалению, все мои резервные копии были на самом сервере. Так что сохраните лекцию; вы на 100% абсолютно правы, но это мне сейчас не поможет. Давайте сосредоточиться на вопросе здесь!)

Я начинаю медленный, болезненный процесс восстановления веб-сайта из кэша веб-сканера.

Существует несколько автоматизированных инструментов для восстановления веб-сайтов из кешей веб-пауков (Yahoo, Bing, Google и т. Д.), Таких как Warrick , но у меня были некоторые плохие результаты при использовании этого:

  • Мой IP-адрес был быстро заблокирован из Google за его использование
  • Я получаю много ошибок 500 и 503 и "жду 5 минут ..."
  • В конечном итоге, я могу быстрее восстановить текстовое содержимое вручную

Мне повезло больше: я использовал список всех постов в блоге, щелкнул по кешу Google и сохранил каждый отдельный файл в формате HTML. Хотя есть много сообщений в блоге, есть не что много, и я полагаю , что я заслуживаю самобичевания за не имея лучшее стратегии резервного копирования. В любом случае, важно то, что мне посчастливилось получить текст сообщения в блоге таким образом, и я определенно могу вывести текст веб-страниц из интернет-кэша. Основываясь на том, что я сделал до сих пор, я уверен, что смогу восстановить весь потерянный текст поста в блоге и комментарии .

Однако изображения, которые идут с каждым сообщением в блоге, оказываются ... более сложными.

Какие-нибудь общие советы по восстановлению страниц веб-сайтов из интернет-кэшей и, в частности, мест для восстановления архивных изображений со страниц веб-сайтов ?

(И, опять же, пожалуйста, никаких резервных лекций. Вы полностью, полностью, совершенно правы! Но быть правым не решает мою непосредственную проблему ... Если у вас нет машины времени ...)


96
Когда кто-то вроде самого Джеффа Этвуда может потерять два целых сайта одним махом ... Хорошо. Я собираюсь пересмотреть свои собственные процедуры резервного копирования, например: P

240
@Phoshi: у Джеффа есть несколько хороших статей о Coding Horror по резервному копированию. Вы должны дать им краткое чтение.

34
Джошхант выигрывает один (1) интернет. Это предложение не может быть объединено с другими предложениями, обменено или заменено. Нет дождевиков.
Адам Дэвис

28
На что пойдут некоторые люди, чтобы заработать репутацию на SU ...

26
Пожалуйста, не называйте то, что вы делали, как «резервные копии» - если эти файлы находятся на одном сервере, они никоим образом не являются «резервными копиями».

Ответы:


220

Вот мой дикий удар в темноте: настройте свой веб-сервер так, чтобы он возвращал 304 для каждого запроса изображения, затем скопируйте источник восстановления, разместив где-нибудь список URL-адресов и попросив подкаст для всех ваших читателей загрузить каждый URL-адрес и собрать любые изображения. которые загружаются из своих локальных кешей. (Это может сработать только после того, как вы восстановите сами HTML-страницы с <img ...>тэгами, что, по-видимому, подразумевается в вашем вопросе.)

Это в основном причудливый способ сказать: «Получите его из кеша браузера ваших читателей». У вас много читателей и слушателей подкастов, поэтому вы можете эффективно мобилизовать большое количество людей, которые, вероятно, недавно заходили на ваш веб-сайт. Но поиск и извлечение изображений из кэшей различных веб-браузеров вручную затруднен, и весь подход работает лучше всего, если он достаточно прост, чтобы многие попробовали его и добились успеха. Таким образом, подход 304. Все, что требуется от читателей, - это то, что они нажимают на серию ссылок и перетаскивают любые изображения, которые загружаются в их веб-браузер (или щелкают правой кнопкой мыши и сохраняют как, и т. Д.), А затем отправляют их по электронной почте или загружают на центральное расположение, которое вы создали, или что-то еще. Основным недостатком этого подхода является то, что кэши веб-браузера не уходят так далеко во времени. Но для того, чтобы спасти даже очень старое изображение, требуется всего лишь один читатель, который случайно загрузил пост 2006 года. С достаточно большой аудиторией все возможно.


52
+1 за самый креативный подход. Может действительно работать, так как у CH есть много читателей.

16
реализовано здесь? diovo.com/2009/12/…
Джефф Этвуд

3
Я думаю, что вы можете сканировать свои статические файлы для тегов изображений и копировать их в одну гигантскую страницу изображений, вместо того, чтобы каждый нажимал на каждую ссылку. Реализация diovo.com выглядит очень впечатляюще, надеюсь, она сработает для вас.

2
ВАУ, это дурацкое волшебное дерьмо, я <3
Ахмад Альфи

4
На самом деле, вы должны быть в состоянии получить изображения с помощью canvasи отправить их домой с помощью AJAX.
Томаш Зато

65

Некоторые из нас следуют за вами с помощью программы чтения RSS и не очищают кеш. У меня есть посты в блоге, которые, похоже, относятся к 2006 году. Насколько я вижу, нет изображений, но они могут быть лучше, чем то, что вы делаете сейчас.


+1 определенно. Google Reader этого не делает, но я уверен, что настольный компьютер будет.

2
Вы также можете попросить людей проверить их кеш браузера. Те, кто смотрит ретро-стиль Coding Horror, могут кэшировать некоторые изображения.

У меня есть записи в блоге GReader за 2005 год, но, к сожалению, у них нет изображений, и они не позволят мне просто экспортировать их в виде серии страниц ... Я мог бы отправить их вам по электронной почте, Джефф. ..
Глен Солсберри

Да, было подразумеваемое «Я пришлю вам то, что у меня есть, если вы попросите об этом». и в моем ответе.

3
Слишком много читателей RSS предполагают, что изображения никогда не умрут. Я знаю, что мой делает :(

62

(1) Извлечь список имен файлов всех отсутствующих изображений из резервных копий HTML. Вы останетесь с чем-то вроде:

  • оставать-puft-зефир-man.jpg
  • Интернет-свойства-dialog.png
  • Yahoo-страницу-small.png
  • пароль-шоу-animated.gif
  • tivo2.jpg
  • майкл-Abrash-график-программа

(2) Выполните поиск изображений Google для этих имен файлов. Похоже, что многие из них были "отражены" другими блоггерами и созрели для того, чтобы их использовать, потому что у них одинаковое имя файла .

(3) Вы можете сделать это в автоматическом режиме, если это окажется успешным, скажем, для 10+ изображений.


Было бы очень иронично, если бы он на самом деле получил какие-нибудь изображения обратно, как это.
Хашим

51

Зайдя в поискsite:codinghorror.com картинок Google и введя его, вы сможете найти версии всех ваших изображений, которые вы найдете в виде уменьшенного изображения. Нет, это не обязательно помогает, но дает вам отправную точку для извлечения этих тысяч изображений.

Codinghorror изображений

Похоже, что Google хранит уменьшенное изображение в некоторых случаях:

Google против Bing

Гугл слева, Бинг справа.


2
да, в худшем случае нам придется масштабировать эскизы из Google. Я слышал, что Bing хранит большие эскизы?
Джефф Этвуд

Я не знаю; Я не из тех парней. Я даже не знаю, делают ли они поиск картинок, как Google. Я узнаю и обновлю указанный пост.
Джордж Стокер

18
Я не знаю, если это ты. Но у Imageshack, похоже, много картинок из твоего блога. profile.imageshack.us/user/codinghorror
Ник Берарди

Кажется, у них 456 полноразмерных изображений. Это может быть лучшим выбором для восстановления всего. Может быть, они могут даже предоставить вам свалку.
Ник Берарди

28
Для начала воспользуйтесь миниатюрами Google, а затем воспользуйтесь сайтом tineye.com, чтобы узнать, размещает ли кто-нибудь копию.
Sep332

40

Жаль слышать о блогах. Не собираюсь читать лекции. Но я нашел то, что кажется твоими изображениями на Imageshack. Они действительно ваши или кто-то хранит их копии.

http://profile.imageshack.us/user/codinghorror

Кажется, у них 456 полноразмерных изображений. Это может быть лучшим выбором для восстановления всего. Может быть, они могут даже предоставить вам свалку.


37

Джефф, я написал кое-что для тебя здесь

Короче говоря, я предлагаю вам сделать следующее:

  1. Сконфигурируйте веб-сервер так, чтобы он возвращал 304 для каждого запроса изображения. 304 означает, что файл не изменен, и это означает, что браузер будет извлекать файл из своего кэша, если он там присутствует. (кредит: этот ответ SuperUser )

  2. На каждой странице сайта добавьте небольшой скрипт для захвата данных изображения и отправки их на сервер.

  3. Сохраните данные изображения на сервере.

  4. Вуаля!

Вы можете получить скрипты по данной ссылке.


Ответ Супер пользователя не связан.
Натаниэль

@Nathaniel: ИСПРАВЛЕНО
alexanderpas

28

Попробуйте этот запрос на Wayback Machine :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Это позволит вам получить все изображения с сайта codinghorror.com, заархивированные на сайте archive.org. Это возвращает 3878 изображений, некоторые из которых являются дубликатами. Это не будет полным, но хорошее начало, тем не менее.

Для остальных изображений вы можете использовать миниатюры из кэша поисковой системы, а затем выполнить обратный поиск, используя их по адресу http://www.tineye.com/ . Вы даете ему уменьшенное изображение, и он даст вам предварительный просмотр и указатель на близко совпадающие изображения, найденные в Интернете.


1
возвращает 404 сейчас?
rogerdpack

Я сделал инструмент для автоматического получения резервной копии с Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator

26

+1 по ddрекомендации, если (1) где-то доступен сырой диск; и (2) изображения были простыми файлами. Затем вы можете использовать криминалистический инструмент «вырезания данных», чтобы (например) извлечь все вероятные диапазоны, которые выглядят как JPG / PNGs / GIF. Я восстановил 95% + фотографий на iPhone, который был стерт таким образом.

Для этого можно использовать инструменты с открытым исходным кодом «foremost» и его преемника «скальпель»:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec также может быть полезен, как только вы получите изображения dd.

прежде всего доступно через yum на Fedora

26

К счастью, будущие поколения будут в порядке.

Ученые / лингвисты даже многое поняли из этого большого камня.

Розеттский камень

Если несколько фотографий отсутствуют, предоставьте это кому-нибудь, чтобы выяснить через пару тысяч лет.

Надеюсь, ты немного смеешься. :)


5
Хорошо, по крайней мере, вы получили от меня хихиканье ;-)

21

Вы также всегда можете попробовать archive.org. Используйте машину обратного хода. Я использовал это, чтобы восстановить изображения с моих сайтов.


3
Кажется, по крайней мере, не так много кеша для CodingHorror. Я вижу изображения для blog.stackoverflow, хотя.

я однажды перестроил веб-сайт, используя машину обратного хода в Интернете, но несколько раз пробовал с тех пор, и он действительно не архивирует очень много сайтов ...
djangofan

Похоже , она восходит к 2004 году здесь web.archive.org/web * / codinghorror.com

Слава Богу, у него не было файла robots.txt, а? :)
Synetech

14

Итак, в худшем случае, вы не можете ничего восстановить. Черт.

Попробуйте перехватить миниатюрные Google и передать их через TinEye , поисковую систему с обратным изображением. Надеемся, что он должен захватить любые дубликаты или rehosts, которые сделали люди.


14

Это длинный выстрел, но вы могли бы рассмотреть:

  • Размещаем точный список картинок, которые вам не хватает
  • краудсорсинг поискового процесса через интернет-кеш всех ваших читателей.

Например, посмотрите Nirsoft Mozilla Cache Viewer :

альтернативный текст
(источник: nirsoft.net )

Он может быстро найти любую картинку «blog.stackoverflow.com», которую можно получить с помощью простой командной строки:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Примечание: у них один и тот же проводник кеша для Chrome .

альтернативный текст
(источник: nirsoft.net )

(У меня должно быть 15 дней фотографий blog.stackoverflow.com в нем)

И Internet Explorer , или Opera .


Затем обновите общедоступный список, чтобы отразить то, что читатели сообщают о нахождении в своем кэше.


12

В прошлом я использовал http://www.archive.org/ для поиска кэшированных изображений. Это своего рода хит или мисс, но это сработало для меня.
Кроме того, при попытке восстановить стоковые фотографии, которые я использовал на старом сайте, www.tineye.com отлично подходит, когда у меня есть только миниатюры и мне нужны полноразмерные изображения.

Я надеюсь, это поможет вам. Удачи.


Я просмотрел archive.org несколько минут назад, чтобы найти изображения codinghorror.com, и несколько постов, на которые я нажал, не показывались.
Джордж Стокер

Archive.org выпускает данные спустя месяцы после того, как они впервые проиндексировали их.
Кристиан

10

Вероятно, это не самое простое и не полностью защищенное решение, но такие сервисы, как Evernote, обычно сохраняют как текст, так и изображения, когда они хранятся в приложении - возможно, некоторые полезные читатели, которые сохранили ваши статьи, могут сохранить изображения и отправить их вам ?


10

У меня был большой опыт работы с archive.org . Даже если вы не можете извлечь все свои записи в блоге с сайта, они сохраняют периодические снимки:

альтернативный текст

Таким образом, вы можете проверить каждую страницу и увидеть сообщения в блоге, которые вы сделали. С именами всех постов вы можете легко найти их в кеше Google, если в archive.org его нет. Архив пытается сохранить изображения, в кэше Google будут изображения, и я недавно не опустошил свой кэш, чтобы помочь вам с более свежими сообщениями в блоге :)


Я пытался получить некоторые данные с веб-сайта компании, в которой я работал некоторое время назад. Это было хорошо для текста, меньше для изображений. Но YMMV
ChrisF

Я считаю, что веб-кеш Google не хранит изображения.
Натаниэль

8

Вы пробовали свой собственный локальный кеш браузера? Довольно хороший шанс, что некоторые из более свежих вещей все еще там. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache

(Или вы можете составить список всех отсутствующих изображений, и каждый может проверить свой кеш, чтобы увидеть, можем ли мы заполнить пробелы)


8

Предложение на будущее: я использую Windows Live Writer для ведения блогов, и он сохраняет локальные копии сообщений на моем компьютере, а также публикует их в блоге.


Плюс, использование Windows Live Writer - это просто здравый смысл.

7

Около пяти лет назад раннее воплощение внешнего жесткого диска, на котором я хранил все свои цифровые фотографии, провалилось. Я сделал образ жесткого диска, используя ddи написал элементарный инструмент для восстановления всего, что было похоже на изображение JPEG. Получил большинство моих фотографий из этого.

Итак, вопрос в том, можете ли вы получить копию образа диска виртуальной машины, в котором хранятся образы?



7

Я предлагаю комбинацию archive.org и анонимайзера запросов типа [Tor] [2]. Я предлагаю использовать анонимайзер, так как каждый из ваших запросов будет иметь произвольный IP-адрес и местоположение, и таким образом вы сможете избежать блокировки банком archive.org (как это сделал Google) за необычно большое количество запросов.

Удачи, в этом блоге много драгоценностей.


Учитывая, что Джефф хочет сделать пожертвование для archive.org, злоупотребление анонимайзером не может быть абсолютно неприемлемым. Но я все еще хочу дать тебе удовольствие. : - |

6

Машина обратного пути будет иметь некоторые. Кеш Google и подобные кеши будут иметь некоторые.

Одна из самых эффективных вещей, которую вы сможете сделать, - отправить по электронной почте оригинальные плакаты с просьбой о помощи.

У меня действительно есть некоторые инфраструктурные рекомендации, потому что после этого все вычищено. Фундаментальная проблема на самом деле не в резервном копировании, а в отсутствии репликации сайта и отсутствии аудита. Если вы напишите мне по электронной почте в поле для личной почты, позже, когда вы снова встанете на ноги, я хотел бы обсудить этот вопрос с вами.


6

Если ваши изображения были сохранены во внешней службе, такой как Flickr или CDN (как упомянуто в одном из ваших подкастов), у вас все еще могут быть ресурсы изображений.

Некоторые изображения можно найти, выполнив поиск в Google Images и нажав «Найти похожие изображения» , возможно, есть копии на других сайтах.


5

archive.org иногда скрывает изображения. Получите каждый URL вручную (или напишите короткий скрипт) и запросите их для него следующим образом:

string.Format ("GET / * / {0}", nextUri)

Конечно, это будет довольно сложно для поиска.

Я мог бы иметь некоторые в моем кэше браузера. Если я это сделаю, я их где-нибудь устрою.


4

Если вы хотите попробовать очистить кеши пользователей, вы можете настроить сервер так, чтобы он отвечал 304 Not Modifiedна все запросы условного GET (If-Modified-Since или If-None-Match), которые браузеры используют для этого. повторно проверить их кэшированный материал.

Если ваши начальные заголовки кэширования для статического контента, такого как изображения, были довольно либеральными - позволяя кэшировать вещи в течение нескольких дней или месяцев - вы могли бы получать повторные запросы на некоторое время. Установите cookie для этих запросов и попросите этих пользователей запустить скрипт для своего кэша, чтобы извлечь изображения, которые у них еще есть.

Однако будьте осторожны: в тот момент, когда вы начнете размещать любой текстовый контент со встроенными ресурсами, которых еще нет, вы можете уничтожить эти кэшированные версии, когда ревалидаторы достигнут 404-х.


4

Вы можете использовать TinEye, чтобы найти дубликаты ваших изображений , выполнив поиск по миниатюрам в кэше Google . Это поможет только с изображениями, которые вы взяли с других сайтов.


1
Нет, это помогло бы с изображениями, которые другие взяли из CH.
DisgruntledGoat

@DisgruntledGoat: Сначала я даже не думал об этом: D

4

Рискуя указывать на очевидное, попробуйте найти резервные копии вашего компьютера для изображений. Я знаю, что моя стратегия резервного копирования достаточно случайна, так что у меня есть несколько копий большого количества файлов на внешних дисках, записанных дисках и в файлах zip / tar. Удачи!


4

Мне удалось восстановить эти файлы из моего кэша Safari на Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Если кто-то еще хочет попробовать, я написал скрипт на Python для извлечения их в ~ / codinghorror / filename, который я разместил здесь .

Надеюсь, это поможет.


3

Вы получили возможность проверить, есть ли у вашего хостинг-провайдера какая-либо резервная копия (некоторые старые версии)?


это не выглядит хорошо .. их программа резервного копирования не смогла сделать резервную копию файлов жесткого диска виртуальной машины, поэтому нет никаких резервных копий.
Джефф Этвуд

2

Сколько стоят эти данные для вас? Если это стоит значительную сумму (тысячи долларов), тогда попробуйте у вашего хостинг-провайдера указать жесткий диск, используемый для хранения данных для вашего сайта (в случае потери данных из-за аппаратного сбоя). Затем вы можете взять диск на трек или какую-либо другую службу восстановления данных, чтобы посмотреть, что вы можете снять с диска. Это может быть сложно договориться из-за вероятности того, что на диске могут быть обнаружены данные других людей, но если вы действительно заботитесь об этом, вы, вероятно, можете решить это.


насколько я знаю, сервер был виртуальной машиной.
splattne

1
@ Splattne, несмотря на это, есть ненулевой шанс, что многие данные могут быть восстановлены.

Должен быть высокоспециализированный сервис.

2

Очень жаль это слышать, и я очень раздражен за вас, и за время - я хотел офлайн-копию нескольких ваших постов и сделал HTTrack на вашем сайте, но мне пришлось выйти (это было пару недель назад) и Я остановил это.

Если хост наполовину спускается - и я полагаю, что вы хороший клиент ... Я бы попросил их либо отправить вам жесткие диски (как я предполагаю, что они должны использовать RAID), либо выполнить какое-то восстановление самостоятельно.

Хотя это может и не быть быстрым процессом, я сделал это с одним хостом для клиента и смог восстановить целые базы данных без изменений (... в основном хост пытался обновить панель управления, которую они использовали, и испортил ее). но ничего не было перезаписано).

Что бы ни случилось - удачи всем вашим поклонникам на сайтах ТАК!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.