Итак, я задам другой вопрос:
Почему необходимо запускать диагностику оборудования HP Insight на серверах до инициализации?
В своем комментарии выше я указал, что выигрыш в этом случае превентивен в больших средах HP ProLiant. Я должен уточнить свои мысли по этому поводу ...
В порядке убывания частоты рассмотрим типы проблем, с которыми вы обычно сталкиваетесь:
Массив хранения и диски : RAID-контроллер будет сообщать операционной системе, журналам, SNMP, электронной почте, ILO и загораться красивыми индикаторами состояния.
ОЗУ : процесс POST обнаружит состояние ОЗУ, а также систему, сообщающую ОС, журналы, SNMP, электронную почту, ILO и загорается светодиодный индикатор на дисплее Insight Display (SID) на передней панели . Кроме того, я не фанат процессов записи оперативной памяти, поскольку обнаружение ошибок в этих системах уже устойчиво.
Тепловая защита и вентиляторы : температура сервера и скорость вращения вентилятора регулируются МОТ. В этих системах более 30 датчиков температуры , поэтому система охлаждения чрезвычайно эффективна. Это все еще сообщает ОС, журналам, SNMP, электронной почте и SID.
Источник питания : состояние блока питания передается в ОС, журналы, протокол SNMP, электронная почта и SID, а также на индикаторную лампу на фактическом блоке питания.
Общее состояние : это легко оценить с помощью дисплея SID в дополнение к индикатору внутреннего и внешнего здоровья. Об этом также сообщается в журналах сервера, SNMP, электронной почте и МОТ.
Я не могу вспомнить какие-либо условия, которые были бы обнаружены перед развертыванием, о которых не / нельзя было бы сообщить во время выполнения или после установки ОС.
Цикл диагностики обычно не находит ничего при запуске в системе без явных предшествующих проблем. Это происходит главным образом потому, что серверу необходимо выполнить POST и загрузиться в утилиту или встроенное ПО Intelligent Provisioning для запуска утилиты.
Иными словами, любой элемент, который будет серьезным «SPOF» для сервера, вероятно, помешает системе запустить самодиагностику.
Наиболее распространенные элементы отказа все еще довольно устойчивы; диски должны быть в RAID и иметь возможность горячей замены. Вентиляторы и блоки питания также могут быть заменены в горячем режиме. Ваша оперативная память имеет пороговые значения ECC, и для большинства платформ ProLiant доступны онлайн-опции. Вы ничего не сможете сделать, чтобы вызвать сбой в этих компонентах, запустив диагностику. Добавьте тот факт, что вы используете блейд-серверы HP C7000 с внутренним резервированием , и вероятность сбоя должна быть довольно низкой.