Это зависит от вашего серверного оборудования. Система Whitebox или Supermicro справится с этим иначе, чем Dell, HP или IBM ...
Одна из дополнительных возможностей высокопроизводительных серверов заключается в том, что существует уровень интеграции оборудования и ОС. Более качественные серверы сообщат о том, что вы ищете, в составе агентов управления и / или решения для внеполосного управления (ILO, DRAC, IPMI).
Вы должны использовать инструменты, встроенные в вашу аппаратную платформу.
Выдержка из серверов HP ProLiant под управлением Linux и агентов управления HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
а также
Trap-ID=6052
Advanced ECC Memory Engaged
или более серьезный
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
или самое худшее ... Игнорирование ошибки в течение 6 дней, пока не произойдет сбой сервера из-за плохой оперативной памяти
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Они были зарегистрированы, а также были отправлены SNMP-ловушки и электронные письма.
В общем, вы увидите исключения машинной проверки в кольцевом буфере ядра, так что вы можете проверить dmesg
или запустить mcelog . В моем опыте с Supermicro gear без IPMI, который не ловил все, и у меня все еще были ошибки ОЗУ, проскальзывавшие сквозь трещины и приводившие к сбоям. К сожалению, это привело к устаревшим политикам выгрузки оперативной памяти перед развертыванием системы.