Я получил электронное письмо от пользователя, обеспокоенного тем, что следующие ошибки на одном из его серверов свидетельствуют о серьезной проблеме. Проблема в том, что ошибки, перечисленные ниже, - это все, на что я должен идти. Я обычно считаю себя приличным гуглером, но в этом случае я могу найти только еще один случай, когда пользователи столкнулись с этой ошибкой, касающейся «Каталога фильтра зонда»:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Из того, что я могу сказать, это случилось только один раз. Просмотр журналов на предмет других аппаратных ошибок не вызывает ничего, кроме этого одного инцидента.
Пост форума, на который я ссылаюсь выше, просто заканчивается тем, что пользователь не беспокоится об этом, если это произошло только один раз и не вызвало фатальных проблем. Это тот же совет, который я получил от своих коллег, которые также упомянули, что слишком много переменных (то есть что работало в 2:50 утра 8 сентября?).
Однако этот пользователь хочет быть уверен, что с его системой что-то не так. Что могут указывать или быть связаны с вышеуказанными ошибками? Что такое «каталог фильтров зондирования»? Какие тесты я могу запустить, чтобы успокоить пользователя, чтобы это не пометило его машину для надвигающейся гибели?
Linux-дистрибутив этой машины - Red Hat Enterprise Linux Server версии 6.4 (Сантьяго).