Что такое некритический сервер? Тот, который может потерпеть неудачу?
ECC RAM имеет основополагающее значение, когда основополагающая надежность памяти.
Две вещи растут с ростом объема памяти:
- зависимость программного обеспечения от памяти, особенно серверное программное обеспечение (например, кеширование)
- вероятность ошибки памяти (p = num_bits * p_bit_failure)
Эта презентация Intel на ECC сообщает об этих фактах:
- Средняя частота ошибок памяти для сервера с 4 ГБ памяти, работающего 24x7, составляет 150 раз в год.
- ~ 4000 исправляемых ошибок на модуль памяти в год
- Разгон и возраст системы значительно увеличивают частоту отказов
- Периодические сбои распространены и происходят быстро (97% происходят в течение 10 дней после первого сбоя) => лавинный эффект
- Для сервера ECC со сроком службы от 3 до 5 лет вероятность сбоя системы в случае неисправимой ошибки памяти составляет менее 0,001%.
Другое недавнее исследование WISC показывает, что ECC важен для этих систем ZFS:
В ZFS нет мер предосторожности при повреждении памяти: поврежденные блоки данных возвращаются пользователю или записываются на диск, операции файловой системы завершаются сбоем, и во многих случаях происходит сбой всей системы.
Важно отметить, что другие файловые системы так же чувствительны к этой форме повреждения данных, как и ZFS.
ECC - это то, что спасает вас от возможных проблем, когда это возможно, и в катастрофических случаях предупреждает вас об этом, пока не стало слишком поздно.