Я видел рассуждения об использовании оперативной памяти ECC на серверах. Почему лучше?
Я видел рассуждения об использовании оперативной памяти ECC на серверах. Почему лучше?
Ответы:
ECC RAM может восстанавливаться после небольших ошибок в битах, используя биты четности. Поскольку серверы являются общим ресурсом, где важны время безотказной работы и надежность, ОЗУ ECC обычно используется с незначительной разницей в цене. ECC RAM также используется на рабочих станциях CAD / CAM, где небольшие битовые ошибки могут привести к ошибкам в расчетах, которые становятся более существенными проблемами при разработке дизайна.
Отличное исследование в реальном мире:
Ошибки DRAM в дикой природе: крупномасштабное полевое исследование (pdf)
Эта статья представляет собой первое крупномасштабное исследование ошибок памяти DRAM в полевых условиях. Он основан на данных, собранных с серверного парка Google за период более двух лет, что составляет много миллионов дней DIMM. DRAM в нашем исследовании охватывает несколько поставщиков, плотности и технологии DRAM (DDR1, DDR2 и FBDIMM).
В статье рассматриваются следующие вопросы: Насколько распространены ошибки памяти на практике? Каковы их статистические свойства? Как на них влияют внешние факторы, такие как температура и использование системы? И как они варьируются в зависимости от конкретных микросхем, таких как плотность микросхем, технология памяти и возраст DIMM?
Мы находим, что во многих аспектах ошибки DRAM в поле ведут себя совсем не так, как принято считать. Например, мы наблюдаем частоту появления ошибок DRAM на несколько порядков выше, чем сообщалось ранее, с частотой FIT (сбоев во времени на миллиард часов работы устройства) от 25 000 до 70 000 на Мбит и более 8% затронутых модулей DIMM в год. Мы приводим убедительные доказательства того, что в ошибках памяти преобладают жесткие, а не мягкие ошибки, на которых основное внимание уделяется предыдущей работе. Мы находим, что из всех факторов, которые влияют на поведение DIMM по ошибкам в полевых условиях, температура оказывает удивительно небольшое влияние. Наконец, в отличие от распространенных опасений, мы не видим никаких признаков того, что частота ошибок для каждого DIMM увеличивается с новыми поколениями модулей DIMM.
Интересно, что большинство ошибок памяти были жесткими - жесткие ошибки памяти не подлежат восстановлению, что означает, что память должна быть физически заменена как неисправная , тогда как ошибки программной памяти могут быть исправлены путем перезаписи памяти с правильным значением. Это указывает на то, что значение ECC довольно ограничено.
Существует два вида ошибок, которые обычно могут возникать в системе памяти. Первый называется повторяемой или серьезной ошибкой. В этой ситуации часть оборудования сломана и будет постоянно возвращать неверные результаты. Бит может застрять, например, он всегда возвращает «0», независимо от того, что ему записано. Серьезные ошибки обычно указывают на ослабленные модули памяти, перегоревшие чипы, дефекты материнской платы или другие физические проблемы. Их относительно легко диагностировать и исправить, потому что они последовательны и повторяемы.
Похоже, что все серверы в исследовании использовали ECC, поэтому мы не можем знать частоту ошибок ECC и не-ECC.
В этой статье изучались частота и характеристики ошибок DRAM в большом парке товарных серверов. Наше исследование основано на данных, собранных за более чем 2 года, и охватывает модули DIMM разных поставщиков, поколений, технологий и мощностей. Все модули DIMM были оснащены логикой коррекции ошибок (ECC) для исправления как минимум однобитовых ошибок.
ECC имеет несколько преимуществ по сравнению с паритетом. С одной стороны, он может обнаруживать и исправлять однобитовые ошибки и делать это без остановки всей системы. Многоразрядные ошибки по-прежнему будут возвращать ошибку четности, но шансы этого происходить астрономически низки в течение всего срока службы ПК, если только сама память не имеет дефектов. ECC это как автострахование: оно покрывает большинство вещей, которые могут пойти не так, но не может предотвратить сбои в нескольких автомобилях.
более подробно здесь: память ECC: необходимость для серверов, а не для настольных ПК
Чтобы упростить задачу, приведу цитату из Википедии :
Электрические или магнитные помехи внутри компьютерной системы могут привести к тому, что один бит DRAM самопроизвольно переходит в противоположное состояние. Первоначально считалось, что это происходит главным образом из-за альфа-частиц, испускаемых загрязнителями в материале упаковки чипов, но исследования [5] показали, что большинство одноразовых («мягких») ошибок в чипах DRAM происходит в результате фонового излучения
...
Эту проблему можно решить с помощью модулей DRAM, которые содержат дополнительные биты памяти, и контроллеров памяти, которые используют эти биты. Эти дополнительные биты используются для записи четности или для использования кода, исправляющего ошибки