Можно ли использовать моментальные снимки NetApp в качестве резервных копий?


11

Наш магазин очень сильно зависит от объемных снимков NetApp для резервного копирования. Мы используем традиционные агентные резервные копии на магнитной ленте для некоторых наших данных, но в целом мы полагаемся на моментальные снимки для большинства наших систем. Кроме того, у нас нет строгой политики контроля изменений или какого-либо централизованного управления конфигурацией, поэтому всенаших серверов, независимо от того, будут ли резервироваться данные, предоставляемые их службами, потребуется перестроить с нуля (и без какой-либо реальной документации). Естественно, это делает моментальные снимки очень привлекательным предложением для управления, поскольку мы можем просто восстановить весь сервер, пользовательские данные и конфигурацию. Мы используем консоль виртуального хранилища NetApp для создания снимков наших хранилищ данных VMware на основе NFS и SnapDrive NetApp для физических (LUN) сопоставленных устройств, которые предоставляются непосредственно гостям. Мы снимаем критические моментальные снимки SnapMirror вне сайта другого Filer. Естественно, мы регулярно проверяем наш процесс восстановления.

Я не могу не чувствовать себя неудобно с нашей зависимостью от снимков на резервных копиях. Для меня, чтобы технология считалась достаточной в качестве стратегии резервного копирования, она должна соответствовать следующим критериям:

  • Резервная копия должна быть атомарной. То есть резервная копия не может полагаться на что-либо еще для своего восстановления.
  • Резервная копия должна быть отделена от системы, из которой она создана (вне диапазона).
  • Резервная копия должна быть скопирована или перенесена на удаленный сайт (вне сайта)


Снимки NetApp

Насколько я понимаю, моментальные снимки NetApp работают по методологии Redirect-On-Write (RoW). В макете файла WAFL используется набор указателей (метаданных?), Которые фактически ссылаются на каждый блок хранилища, где бы он ни находился. Чтобы сделать снимок, система просто берет копию метаданных тома и сохраняет ее в зарезервированном пространстве этого тома. Любые записи (создания / изменения / удаления) перенаправляются в новые блоки. Предполагается, что это особый соус, который делает WAFL NetApp таким замечательным, потому что вам не нужно читать, а затем записывать старые данные в зарезервированное пространство, а затем записывать новые данные поверх старых, таких как моментальные снимки Copy-On-Write.


Я полностью признаю, что, возможно, не совсем понимаю, как работают моментальные снимки NetApp Volume, но если мое понимание более или менее верно, моментальные снимки NetApp не соответствуют моим критериям для резервного копирования.

  • Они не атомные. «Снимок» - это просто набор указателей на исходные данные. Если исходных данных больше нет, метаданные бесполезны.
  • Снимок не отделен от системы. Если кто-то удаляет неправильный том, я теряю снимок. Если NetApp Filer превращается в маленьких маленьких котят, я теряю резервную копию. Я могу использовать SnapMirror, чтобы переместить мои снимки в другой Filer, но опять же, это просто перемещение метаданных, а не фактических блоков. Если я потеряю исходный том, я не вижу, как снимок, скопированный на другой файлер, поможет.



Может кто-нибудь объяснить, как снимки NetApp можно считать резервными копиями? Я ищу хорошие субъективные ответы, поэтому, пожалуйста, подкрепите вашу позицию фактами, ссылками и опытом. Если мое понимание лежащей в основе технологии неверно, пожалуйста, объясните, где и почему это меняет мой вывод. Если ваш магазин использует снимки NetApp в качестве резервных копий, пожалуйста, включите достаточное количество контекстной информации, чтобы люди могли понять, какую политику восстановления вы должны выполнить.


Вы также можете получить полезные советы и рекомендации из списка рассылки администраторов тостеров по адресу teaparty.net/mailman/listinfo/toasters . (Отказ от ответственности: я управляю списком.)
MadHatter

4
Я твердо верю, что резервное копирование должно быть как вне сайта, так и в автономном режиме. Злоумышленник не может запустить электронную атаку, которая стирает ленту в блокировочном ящике. Вы заставляете злоумышленника вызывать кинетические средства, как только вы переводите резервные копии в автономный режим.
Эван Андерсон

Как вы указали в самом вопросе, вы уже понимаете, что снимки не являются копией данных. Вот почему SnapMirror необходим. Так почему вы спрашиваете о снимках, а не о том, является ли snapshot + SnapMirror допустимым механизмом резервного копирования?
200_success

Вы часто делаете резервные копии вещей, которые не отражены. Непродовольственные среды, например. Они занимают много времени, чтобы восстановить, но не остановит бизнес, если вы потеряете их.
Василий

Ответы:


15

Резервные копии выполняют две функции.

  • Прежде всего, они позволяют вам восстановить ваши данные, если они становятся недоступными. В этом смысле снимки не являются резервными копиями. Если вы потеряете данные в файлере (удаление тома, повреждение хранилища, ошибка прошивки и т. Д.), Все снимки для этих данных также исчезнут.
  • Во-вторых, и гораздо чаще, резервные копии используются для исправления таких рутинных вещей, как случайное удаление. В этом случае снимки являются резервными копиями. Возможно, они являются одним из лучших способов обеспечить такое восстановление, поскольку они делают более ранние версии данных доступными непосредственно для пользователей или их ОС в виде скрытого каталога .snapshot, из которого они могут непосредственно читать свой файл.

Нет политики хранения

Тем не менее, несмотря на то, что у нас есть моментальные снимки и мы широко их используем, мы все равно выполняем ночные инкременты Netbackup на ленту или в область данных. Причина в том, что моментальные снимки не могут надежно поддерживать политику хранения. Если вы скажете пользователям, что они смогут выполнять резервное копирование с ежедневной детализации в течение недели, а затем с еженедельной детализацией в течение месяца, вы не сможете выполнить это обещание со снимками.

На томе Netapp со снимками удаленные данные, содержащиеся в снимке, занимают пространство «резервного хранилища». Если том не заполнен, и вы настроили его таким образом, вы также можете перенести этот резервный снимок и получить снимки, которые занимают часть неиспользуемого пространства данных. Однако если том заполнится, все снимки, кроме тех, которые поддерживаются данными в зарезервированном пространстве, будут удалены. Удаление моментальных снимков определяется только доступным пространством моментальных снимков, и если потребуется удалить моментальные снимки, необходимые для вашей политики хранения, это будет сделано.

Рассмотрим эту ситуацию:

  • Полный том с регулярными снимками и 2-недельным сроком хранения.
  • Предположим, что половина резерва используется для моментальных снимков на основе нормальной скорости изменения.
  • Кто-то удаляет много данных (больше, чем резерв снимков), временно резко увеличивая скорость изменения.

На данный момент ваш резервный снимок полностью используется, равно как и часть свободного пространства для данных, которое вы позволили OnTap использовать для моментальных снимков, но вы еще не потеряли ни одного снимка. Однако, как только кто-то заполнит том резервными копиями данных, вы потеряете все снимки, содержащиеся в разделе данных, что приведет к тому, что ваша точка восстановления вернется ко времени сразу после большого удаления.

Резюме

Снимки Netapp не защищают вас от реальной потери данных. Ошибочно удаленный том или потеря данных в файлере потребует от вас восстановления данных.

Это очень простой и элегантный способ простого восстановления, но они недостаточно надежны, чтобы заменить реальное решение для резервного копирования. Большую часть времени они делают обычные восстановления простыми и безболезненными, но когда они недоступны, вы подвергаетесь риску.


Deletion of snapshots is determined only by available snapshot space, and if it needs to delete snapshots that are required for your retention policy- Это то, что я даже не рассматривал. Отличный момент.

Вы хотите повеселиться? Попробуйте сделать моментальные снимки на томе с защелкой для гибких клонов цели. Затем попробуйте использовать 100% не зарезервированного пространства на источнике. Это работает до тех пор, пока резервная копия снимка, что flexclone не будет удалена на исходном томе, в этот момент репликация останавливается .
Василий

1
Хотя я согласен с вами по большей части, я, вероятно, исправлю вас по первому вопросу. Запомните правило резервного копирования 3-2-1 и то, что 2 обозначает два разных носителя. SnapShots подходит как одна из трех ваших копий и, возможно, ваш более распространенный сценарий восстановления. Они не ваша копия вне носителя или ваша копия вне сайта. Итак, я бы сказал, что SnapShots служат в качестве резервных копий, но их недостаточно в качестве ЕДИНСТВЕННЫХ резервных копий или целой стратегии резервного копирования. Я думаю, что это то, что вы получили; но я чувствую, что это немного более нюанс.
abegosum

Хорошее различие между двумя (сравнительно важными) функциями резервного копирования, которые можно более кратко назвать аварийным восстановлением и дебильным восстановлением , соответственно.
MadHatter

8

Они резервное копирование, да. Я лично использовал их вместо ежедневных приращений, но мы все равно делали еженедельные записи на ленту.

Они достаточно хорошо защищают от любых ошибок или проблем пользователей или администраторов, не относящихся к netapp (системы, использующие тома).

Они не защищают от катастрофических сбоев оборудования самого Netapp. Насколько я понимаю, SnapMirror действительно копирует все данные (в моментальном снимке) на другой файлер [1], поэтому SnapMirroring на другой файлер должен защитить этот набор данных от катастрофического сбоя одного из них.

Конечно, одной из основных проблем является то, что если кто-то, управляющий netapp, удаляет том, то все снимки идут вместе с ним. SnapMirror на другой файл должен адекватно защитить от этого.

Если все ваши файлеры NetApp находятся в одном и том же центре обработки данных, то у вас нет ничего, что могло бы покрыть серьезную аварию, которую могли бы дать вам резервные копии на лентах, отправленные за пределы площадки.

Вы получите более качественные резервные копии своих виртуальных машин и любых баз данных (или подобных им объектов), если будете использовать соответствующий агент SnapManager, который будет координировать кратковременный запрос данных во время создания снимка. Если данная ВМ и ее данные полностью содержатся в одном томе NetApp, то моментальный снимок этой ВМ должен быть устойчивым к сбоям. То есть, это должно быть так же хорошо, как если бы вы отключили сервер и создали образ диска, что обычно означает проверки файловой системы и эквиваленты базы данных. Если данные базы данных разделены между LUN, создается впечатление, что существует значительный риск повреждения данных.

Если бы это был я, я бы настроил все базы данных на регулярное резервное копирование на локальный диск и настроил эти задания на сохранение одной или двух копий. Это дает вам гораздо лучшую гарантию восстановления.

[1] http://www.netapp.com/us/system/pdf-reader.aspx?m=snapmirror.pdf&cc=us


+1 за упоминание SnapMirroring другому файлуру; люди, кажется, упускают из виду эту функциональность.
MadHatter

1
Однако мгновенное копирование в другой файл не защитит вас от автоматического удаления моментального снимка, сокращающего точку восстановления. Тем не менее, он защищает от удаления томов и потери файлов.
Василий

2

Вы должны прочитать отличный ответ @Basil прямо сейчас, но вот мои два цента:

Снимки не распознаются приложением

Тот факт, что вы делаете снимок базового тома хранения, не означает, что данные на томе подлежат восстановлению. MS SQL является отличным примером этого - вам нужно убедиться, что ваша база данных согласована с транзакциями, прежде чем снимать хранилище, которое она использует, в противном случае, поскольку @freiheit упомянул, что вы не в лучшем положении, чем восстановление после сбоя жесткого диска . Администраторы баз данных любят использовать разные LUN ​​для разных частей SQL, чтобы лучше использовать систему хранения, временные базы данных в быстром хранилище, системные базы данных в более медленном хранилище, данные только для чтения или архивные данные в массовом хранилище, а также рабочие данные где-то посередине. Если вы только те тома мгновенных снимков это весьма маловероятно , что вы сможете восстановить базу данных.

NetApp предоставляет ряд инструментов Snap для информирования о приложении моментальных снимков. SnapManager for SQL обеспечивает эту осведомленность. Я полагаю, что в экосистеме Microsoft есть инструменты SnapManager для Exchange и SharePoint. SnapDrive не имеет этой осведомленности о приложении. Это просто удобный способ управления хранилищем в гостевой системе.

Если вы храните все свои данные и конфигурацию IIS на логических устройствах и снимаете их непосредственно, вы не можете гарантировать, что данные будут восстановлены. Спроси меня, откуда я знаю ...


Несколько типов хранилищ могут иметь разные графики снимков

Если вы представляете хранилище на свои серверы различными способами, это может усложнить ваш снимок и картину восстановления. ONTAP от NetApp является многопротокольным предложением, и вполне возможно, что вы используете более одного метода или типа хранилища для конкретного сервера. В нашем магазине некоторые из наших серверов получают свои диски C: \ через хранилище данных на основе NFS, а свои «хранилища» - через LUN с привязкой к Raw Device. Мы делали снимки логических модулей RDM, но не хранилищ данных на основе NFS. Это затрудняло восстановление сервера .


Снимки не имеют гарантированной политики хранения

Снова, @Basil действительно покрывает это хорошо, но это стоит повторить. Заполнить ваш Snap Reserve можно так, чтобы Snpashot Autodelete удалял снимки, которые, естественно, не были удалены. Опять таки. Это может быть очень плохо, если вы или ваши клиенты ожидаете, что будут доступны три недели снимков.


Снимки встроены

Это недостаток встроенного хранилища ... оно хорошо ... интегрировано. Ваши снимки находятся на той же платформе, для которой вы создаете резервную копию. Если том или файл, на котором он находится, исчезают, то же самое происходит и с резервной копией. Вы можете несколько смягчить это, скопировав снимки в другой Filer с помощью SnapMirror, как я ошибочно заявил в своем вопросе, что копия SnapMirror не является полной копией.


Снимки позволяют продолжать плохую практику

Одна вещь, которую я заметил, состоит в том, что снимки позволяют менеджерам и клиентам продолжать ужасное поведение при работе. В нашей среде у нас очень плохая практика управления документацией и конфигурацией. Это означает, что большинство серверов запускаются с одной и той же базы (шаблон или изображение), но затем настраиваются вручную различными группами людей. По мере того, как они продолжают свою жизнь, серверы все дальше расходятся с шаблоном способами, которые обычно не документированы или не реализованы с помощью управления конфигурацией.

А потом приходят снимки! Нам не нужно отступать и обращаться к некоторым из наших основных принципов работы, потому что мы можем просто сделать снимок всех наших серверов! И мы можем использовать SnapMirror для перемещения этих снимков за пределы сайта, чтобы мы могли использовать их в качестве резервных копий!

Я думаю, что это неправильный урок, чтобы учиться здесь. Лучший урок, который нужно извлечь, - это то, что инфраструктура управления конфигурацией, даже если она настолько проста, как журнал изменений, должна быть зарезервирована для целей восстановления без изменений. Снимки - это фантастический инструмент, но я могу испытать искушение чрезмерно полагаться на них в сдерживании важных основ.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.