Во-первых, я должен спросить: «выключения»? Вы имеете в виду, что машина перезагружается или она действительно останавливается? Если он останавливается, он либо неправильно настроен (возможно, в BIOS), либо что-то активно выключает машину (т.е. init 0).
Если нет, вашим основным кандидатом будут / var / log / syslog и /var/log/kern.log, поскольку ваша проблема звучит как паника ядра или аппаратная ошибка, вызванная программным обеспечением. Конечно, если на сервере запущен какой-то сервис (например, apache), это тоже может дать вам подсказку.
Часто в подобных ситуациях генерируются записи в журнале, но из-за проблем с машиной ей не удастся записать записи на диск. Если коробка расположена в одном месте, есть вероятность, что она подключена к последовательной консоли партнером Colo. Вот куда я бы заглянул, если бы не нашел ничего подозрительного в журналах выше.
Если аппарат не подключен к последовательной консоли, и в журнале ничего нет, вы можете рассмотреть возможность отправки системного журнала в другой ящик по сети. Возможно, сетевой интерфейс выживает немного дольше, и сообщения журнала могут быть прочитаны на сервере системного журнала. Посмотрите на rsyslog или syslog-ng.
ОБНОВИТЬ:
Я согласен с @Johann ниже. Наиболее вероятная причина остановки - сторожевой таймер температуры процессора. Попробуйте проверить / отобразить температуру в коробке через lmsensors или smartctl (как правило, самый простой). Я считаю, что collectd не имеет аналогов в отслеживании большого количества переменных во времени. Это могут делать как IPMI, так и lm-сенсоры и hddtemp. Также некоторые BIOS: регистрируют события остановки температуры.