Я хочу сравнить надежность различных RAID-систем с пользовательскими (URE / bit = 1e-14) или корпоративными (URE / bit = 1e-15) дисками. Формула для определения вероятности успеха восстановления (без учета механических проблем, которые я буду принимать во внимание позже) проста:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Важно помнить, что это вероятность получить по крайней мере один URE, а не только один.
Предположим, мы хотим использовать 6 ТБ свободного места. Мы можем получить это с:
RAID1 с 1 + 1 дисками по 6 ТБ каждый. Во время восстановления мы читаем 1 диск объемом 6 ТБ, и риск составляет: 1- (1-1e-14) ^ (6e12 * 8) = 38% для потребителя или 4,7% для корпоративных накопителей.
RAID10 с 2 + 2 дисками по 3 ТБ каждый. Во время восстановления мы читаем только 1 диск объемом 3 ТБ (тот, который связан с неисправным!), И риск ниже: 1- (1-1e-14) ^ (3e12 * 8) = 21% для потребителя или 2,4% для корпоративные диски.
RAID5 / RAID Z1 с 2 + 1 дисками по 3 ТБ каждый. Во время восстановления мы читаем 2 диска по 3 ТБ каждый, и риск составляет: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% для пользовательских или 4,7% или корпоративных дисков.
RAID5 / RAID Z1 с 3 + 1 дисками по 2 ТБ каждый (часто используется пользователями таких продуктов SOHO, как Synologys). Во время восстановления мы читаем 3 диска по 2 ТБ каждый, и риск составляет: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% для пользовательских или 4,7% или корпоративных дисков.
Вычислить погрешность для допуска на один диск легко, сложнее рассчитать вероятность для систем, допускающих отказы нескольких дисков (RAID6 / Z2, RAIDZ3).
Если для восстановления используется только первый диск, а второй считывается снова с начала в случае или URE, то вероятность ошибки равна той, которая рассчитана с квадратным корнем (14,5% для потребителя RAID5 2 + 1, 4,5% для потребителя RAID1 1 + 2). Тем не менее, я предполагаю (по крайней мере, в ZFS с полными контрольными суммами!), Что второй диск четности / доступный диск доступен только для чтения там, где это необходимо, а это означает, что требуется всего несколько секторов: сколько URE может быть на первом диске? не так много, в противном случае вероятность ошибки для систем с допуском одного диска взлетела бы даже больше, чем я рассчитывал.
Если я прав, второй диск четности практически снизит риск до крайне низких значений.
Помимо этого, важно иметь в виду, что производители увеличивают вероятность URE для накопителей потребительского класса по маркетинговым причинам (продают больше накопителей корпоративного класса), поэтому ожидается, что даже жесткие диски потребительского класса достигнут 1E-15 URE / бит считывания ,
Некоторые данные: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Поэтому значения, которые я указал в скобках (диски предприятия), реально применимы и к дискам потребителя. А реальные корпоративные диски имеют еще более высокую надежность (URE / бит = 1e-16).
Что касается вероятности механических сбоев, они пропорциональны количеству дисков и пропорционально времени, необходимому для восстановления.