Первоначально поднял на serverfault как этот вопрос
У меня есть рабочий сервер openSUSE 11.1 2.6.34.4 Intel с установленным стандартным ipmiutil-2.4.1.
Сторожевой таймер - это, по сути, аппаратный таймер на 90 секунд, отменяемый каждые 60 секунд из пространства пользователя заданием cron.
Причиной беспокойства является не сама перезагрузка сторожевого таймера, а неисправность основного сервера, которая его вызывает, если таковая вообще имеется. IMO-сторожевой таймер IPMI выполняет свою работу по восстановлению системы из неисправимого состояния.
Сервер, кажется, стал медленным / медленным. Я говорю это на основе «пропущенных / отсутствующих» / var / log / cron, syslog и других записей журнала приложений.
Это происходило случайным образом под нагрузочными тестами. Нагрузка - это в основном SIP-трафик на SIP-сервер. Проблема не легко воспроизводима, но это случается довольно часто. Это также не является детерминированным в отношении аппаратного обеспечения, времени, типа загружаемой нагрузки.
Я в своем уме и не знаю, плохой ли это драйвер , ошибка ввода- вывода , что-то в этом роде , приложение SIP или что-то еще.
У меня есть объемы подробных отчетов о работе системы:% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, fault / s, majflt / s, pgfree / s и т. Д. если нужно.
Ни один из отчетов о системной активности не указывает на что-то ненормальное (хотя я не утверждаю, что у меня точно тренированный глаз).