Я начинаю видеть клиентов с сотнями терабайт данных (в установках SQL Server). Поскольку общий объем данных на некоторых предприятиях приближается к значимым долям петабайта, я бы хотел собрать общую базу знаний, чтобы посмотреть, что люди, имеющие дело с таким количеством данных, делают для ее защиты.
Очевидная проблема заключается в том, что хранение нескольких резервных копий такого большого количества данных непозволительно дорого, используя хранилище корпоративного класса, черт возьми, даже просто RAID-5.
Я вижу следующие варианты:
- Создайте зеркальную копию данных в другом центре обработки данных и постоянно отправляйте в нее различия (используя любой доступный механизм для вашего источника данных - например, доставку журналов или зеркальное отображение базы данных с SQL Server)
- Регулярно создавайте резервные копии с использованием мощного алгоритма сжатия (возможно, только в том случае, если данные хорошо поддаются сильному сжатию)
- Делайте частичные резервные копии критических / изменяющихся частей данных.
- Не делайте резервных копий данных и не доверяйте богам коррупции.
Я вижу вариант № 4 принятым по умолчанию, и как эксперт HA / DR это действительно страшно, но что я посоветую в качестве альтернативы? Я думаю, что # 1 - лучший подход, но «я так не думаю» - обычный ответ, когда предлагаются какие-либо альтернативы, кроме # 4 и, возможно, # 3.
Теперь, конечно, это зависит от скорости изменения и критичности данных. Не нужно отвечать на это, так как я отвечал за все функции высокой доступности SQL Server, когда работал в Microsoft, поэтому я хорошо разбираюсь в аргументах «все зависит» - это моя ключевая фраза :-)
Мне было бы очень интересно услышать о любых альтернативах, которые я пропустил, или услышать, что все остальные находятся в одной лодке, и нет никакой реальной альтернативы тратить много денег на большее хранение.
Заранее спасибо - должное будет уделено всем хорошо продуманным и выраженным ответам.