Некоторые домашние истины о хранении, или почему корпоративное хранилище так дорого стоит?
Потребительские жесткие диски занимают большие объемы, поэтому даже самый проницательный пользователь потокового мультимедиа * кашель * кашляет * может купить достаточно для хранения коллекции из нескольких терабайт. Фактически, емкость диска росла быстрее, чем транзистор рассчитывает на кремний в течение нескольких десятилетий.
«Корпоративное» хранилище является несколько более сложной проблемой, поскольку к данным предъявляются требования к производительности и целостности, которые диктуют несколько более тяжелый подход. Данные должны иметь некоторую гарантию доступности в случае аппаратных сбоев, и их, возможно, придется передавать большому количеству пользователей, что вызовет гораздо больше запросов на чтение / запись, чем одному пользователю.
Технические решения этой проблемы могут быть во много-много раз дороже на гигабайт, чем решения для хранения данных. Они также требуют физического обслуживания; резервные копии должны быть взяты и часто храниться за пределами площадки, чтобы пожар не уничтожил данные. Этот процесс добавляет текущие расходы.
Спектакль
На вашем 1-Тбайтном накопителе или даже корпоративном накопителе у вас есть только одна голова. Диск вращается со скоростью 7200 об / мин или 120 оборотов в секунду. Это означает, что вы можете получить максимум 120 операций ввода-вывода с произвольным доступом в секунду в теории * и несколько меньше на практике. Таким образом, копирование большого файла на одном томе объемом 1 ТБ происходит относительно медленно.
На дисковом массиве с 14x 72 ГБ дисками у вас есть 14 голов над дисками со скоростью, скажем, 15000 об / мин или примерно 250 оборотов в секунду. Это дает вам теоретический максимум 3500 случайных операций ввода-вывода в секунду * (опять же, на практике несколько меньше). При прочих равных условиях копия файла будет во много, много раз быстрее.
*
Вы можете получить более одного произвольного доступа за оборот диска, если геометрия чтения позволяет приводу перемещать головки и считывать сектор, который оказался доступным в течение одного оборота диска. Если доступ к диску был широко распространен, вы, вероятно, в среднем будете меньше одного. Если дисковый массив отформатирован в чередующуюся (см. Ниже) схему, в большинстве случаев вы получите максимум одно чтение с чередованием за оборот диска и (в зависимости от контроллера RAID), возможно, в среднем менее одного.
Диск 7200 об / мин на 1 ТБ, вероятно, будет достаточно быстрым при последовательном вводе / выводе. Дисковые массивы, отформатированные в чередующейся схеме (RAID-0, RAID-5, RAID-10 и т. Д.), Обычно могут считывать не более одной полосы на оборот диска. С полосой 64K мы можем читать 64Kx250 = 16 МБ или около того данных в секунду с диска 15000 об / мин. Это дает последовательную пропускную способность около 220 МБ в секунду на массиве из 14 дисков, что не намного быстрее на бумаге, чем 150 МБ / с или около того, что указано для современного диска SATA 1 ТБ.
Для потоковой передачи видео (например) массив из 4 дисков SATA в RAID-0 с большим размером полосы (некоторые контроллеры RAID поддерживают размеры полосы до 1 МБ) имеют довольно большую последовательную пропускную способность. Этот пример теоретически может передавать около 480 МБ / с, что достаточно для редактирования несжатого HD-видео в реальном времени. Таким образом, владельцы Mac Pro и аналогичного оборудования могут выполнять задачи композитинга HD-видео, которые потребовались бы машине с оптоволоконным массивом с прямым подключением всего несколько лет назад.
Настоящим преимуществом дискового массива является работа с базой данных, которая характеризуется большим количеством небольших разбросанных запросов ввода-вывода. При этом типе рабочей нагрузки производительность ограничивается физической задержкой битов металла в диске, проходящих по кругу и назад и вперед. Этот показатель известен как IOPS (количество операций ввода-вывода в секунду). Чем больше физических дисков у вас есть - независимо от емкости - тем больше теоретических операций ввода-вывода в секунду. Больше IOPS означает больше транзакций в секунду.
Целостность данных
Кроме того, большинство конфигураций RAID обеспечивают некоторую избыточность данных, для которой требуется более одного физического диска по определению. Сочетание схемы хранения с такой избыточностью и большим количеством дисков дает системе возможность надежно обслуживать большую транзакционную рабочую нагрузку.
Инфраструктура дисковых массивов (и SAN в более экстремальном случае) не является предметом массового рынка. Кроме того, это один из кусочков, который действительно не может потерпеть неудачу. Эта комбинация стандарта сборки и меньших объемов рынка не обходится дешево.
Общая стоимость хранения, включая резервное копирование
На практике наибольшая стоимость обслуживания 1 ТБ данных, вероятно, будет резервной копией и восстановлением. Ленточный накопитель и 34 комплекта лент SDLT или ultrium для полного цикла резервного копирования и восстановления, вероятно, будут стоить дороже, чем дисковый массив емкостью 1 ТБ. Прибавьте стоимость хранения за пределами площадки и зарплату даже одной ленточной обезьяны, и вдруг ваши 1 ТБ данных станут не такими дешевыми.
Стоимость дисков часто является справедливым путем вниз по иерархии доминирующих затрат на хранение. В одном из банков, где я работал, хранилище SAN стоило 900 фунтов / ГБ для системы разработки и 5000 фунтов / ГБ для диска на производственном сервере. Даже по ценам корпоративных поставщиков физическая стоимость дисков составляла лишь небольшую часть этого. Другой известный мне пример имеет (относительно) скромно сконфигурированную IBM Shark SAN, которая обошлась им где-то более чем в 1 миллион фунтов стерлингов. Стоимость физического хранилища составляет 9 фунтов стерлингов / гигабайт, или около 9 000 фунтов стерлингов за место, эквивалентное вашему жесткому диску потребителя объемом 1 ТБ.