У меня есть 15 идентичных Linux RH 4.7 64-битных серверов. Они запускают кластерную базу данных (кластер на уровне приложения). В некоторых случаях (каждый месяц или около того) случайное поле (хотя и не одно и то же) зависает.
Я могу пинговать коробку и пинг работает. Если я пытаюсь ssh в коробке, я получаю:
ssh_exchange_identification: Connection closed by remote host
SSH настроен правильно.
Когда я иду в серверную и пытаюсь войти в консоль напрямую, я могу переключать консоли с помощью Alt+ Fn, я могу ввести имя пользователя, и символы отображаются, но после нажатия Enterничего не происходит. Я ждал 8 часов один раз, и это не изменилось.
Я настроил системный журнал для регистрации всего на удаленном хосте, и в этих журналах ничего нет. Когда я перезагружаю машину, она работает без проблем. Я запустил тесты HW - все в порядке, и ничего не в журналах. Машины также контролируются с помощью NAGIOS, и нет никакой необычной нагрузки или активности до замораживания.
У меня кончились идеи; что еще я могу сделать или проверить?