Есть много способов обработки данных такого размера. Многое зависит от вашего окружения и того, сколько денег вы готовы потратить. В целом, существует несколько общих стратегий «получить данные с сервера»:
- Через Ethernet Как указано на коробке, данные передаются в Some Where Else для обработки. 20TB займет много времени, чтобы скопировать 1GbE, но это можно сделать. Может помочь оборудование (например, ссылки 10GbE или, в некоторых случаях, соединение NIC).
- Через подсистему хранения Если вы находитесь на Fibre Channel, отправьте его на другое устройство в сети FC. Если у вас есть SAS, отправьте его на устройство, подключенное к SAS. Как правило, быстрее, чем Ethernet.
- Отправьте его на другой дисковый массив. Отправьте его другому хранилищу, подключенному к тому же серверу.
Это вид на 100 км. Как только вы начинаете увеличивать масштаб, все становится более фрагментированным. Как уже упоминалось, LTO5 - это специальная ленточная технология, разработанная для таких нагрузок высокой плотности. Другой идентичный массив хранения - хорошая цель, особенно если вы можете использовать что-то вроде GlusterFS или DRBD для получения данных там. Кроме того, если вам понадобится резервное чередование или просто возможность продолжить работу в случае сбоя массива, это повлияет на то, что вы поставили на место.
Как только вы остановитесь на методе просмотра 100 км, следующей большой задачей станет внедрение программного обеспечения. Факторы, влияющие на это, - это то, что вы можете установить на свой сервер хранения в первую очередь (если это NetApp, это одно, а сервер Linux с кучей хранилищ - это совсем другое, как сервер Windows с кучей хранилищ) какое оборудование вы выберете (например, не все пакеты резервного копирования FOSS хорошо справляются с ленточными библиотеками) и какое хранилище вам требуется.
Вы действительно должны выяснить, какого рода аварийное восстановление вы хотите. Простая живая репликация проще, но не позволяет вам восстановить данные с прошлой недели только сейчас. Если для вас важна возможность восстановления с прошлой недели, то вам нужно спроектировать для такого рода вещи. По закону (в США и других странах) некоторые данные должны храниться в течение 7+ лет.
Простую репликацию проще всего сделать. Это то, для чего предназначен DRBD. Как только начальная копия сделана, она просто отправляет изменения. Осложняющими факторами здесь являются локальность сети, если ваш второй массив не находится рядом с первичным DRBD, возможно, это не осуществимо. Вам понадобится второй сервер хранения, на котором будет как минимум столько же места, сколько на первом.
О резервном копировании на ленту ...
LTO5 может хранить 1,5 ТБ данных без сжатия. Кормление этих монстров требует очень быстрой работы в сети, то есть Fibre Channel или 6Gb SAS. Так как вам нужно сделать резервную копию более 1,5 ТБ, вам нужно взглянуть на автозагрузчики (вот пример: ссылка , 24-слотовый 1-дисковый автозагрузчик от HP). С программным обеспечением, которое их поддерживает, они будут обрабатывать сменные ленты в процессе резервного копирования. Они великолепны. Вам все равно придется извлекать ленты, чтобы отправлять их за пределы площадки, но это чертовски лучше, чем торчать всю ночь, чтобы загружать ленты самостоятельно, когда резервная копия требует их.
Если лента дает вам « наследство », виртуальная ленточная библиотека может быть более быстрой (например, из Quantum: ссылка ). Они претендуют на то, чтобы быть ленточными библиотеками для резервного копирования программного обеспечения, в то же время фактически сохраняя данные на диск с помощью надежных (как вы надеетесь) методов дедупликации. Любители даже копируют виртуальные ленты на реальные для вас, если вам нравятся такие вещи, которые могут быть очень полезны для ротации за пределами площадки.
Если вы не хотите копаться даже с виртуальными лентами, но по-прежнему хотите выполнять прямое резервное копирование на диск, вам понадобится массив хранения, достаточно большой для обработки этих 20 ТБ, плюс столько данных о сетевых изменениях, сколько вам нужно держать в руках. Различные пакеты резервного копирования обрабатывают это по-разному. Некоторые технологии дедупликации действительно хороши, другие - хакеры. Лично я не знаю состояния пакетов ПО для резервного копирования FOSS в этой области (я слышал о Bacula), но их может быть достаточно. Во многих коммерческих пакетах резервного копирования есть локальные агенты, которые вы устанавливаете на серверах для резервного копирования, чтобы увеличить пропускную способность, что имеет много достоинств.