В идеале, с максимально простой установкой и без перезагрузки серверов. Главным образом, DL380 G5's
если это помогает.
В идеале, с максимально простой установкой и без перезагрузки серверов. Главным образом, DL380 G5's
если это помогает.
Ответы:
Это немного зависит от операционных систем, на которых вы работаете на серверах, но в целом можно получать предупреждения от серверов HP ProLiant и RAID-контроллеров Smart Array.
Полный список драйверов и программного обеспечения для ваших систем DL380 G5 приведен здесь .
SNMP и решение для мониторинга - лучший подход ... Но вы можете дополнить это некоторыми инструментами HP. HP предлагает HP Systems Insight Manager , который доступен для загрузки, а также поставляется с серверами. Это идеально подходит для коллекций серверов. Если вы ищете одноразовые оповещения без создания инфраструктуры управления или мониторинга, вы можете просто установить Агенты управления HP (также известный как ProLiant Support Pack ).
Для автономных систем Linux, я заставлю агентов отправлять ловушки по электронной почте. Я обычно настраиваю пакет поддержки с настройками по умолчанию или пользовательским комплектом , затем редактирую /opt/hp/hp-snmp-agents/cma.conf
и изменяю trapemail
строку, чтобы она указывала на адрес получателя:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
Если вы работаете в Linux и не хотите устанавливать полный пакет управления HP, вы можете разработать скрипт для утилиты cciss_vol_status для запроса состояния контроллера / диска. См. Также: Установка агентов HP на OpenFiler.
ProLiant DL360 G7
серверов, и HP SIM настроен для мониторинга.
Проверьте HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
Я считаю, что это должно работать с вашими серверами.
Я использовал облегченную программу, которую @ewwite упомянул в своем ответе: cciss_vol_status
Если вы будете следовать сопровождающим инструкциям INSTALL, сценарий будет помещен в /usr/local/bin/cciss_vol_status
.
Вот скрипт-обертка, который я использую для получения вывода cciss_vol_status и отправки электронного письма, если какой-либо массив имеет состояние FAILED.
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
Вызовите вышеуказанный скрипт в cron. Я запускаю проверку каждые две минуты:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
Мы используем HP System Insight Manager, чтобы проверить, работают ли наши HP, но ничего кроме этого. Я обнаружил, что агент Linux является для нас излишним, поскольку у нас есть другие решения для мониторинга, поэтому приведенный выше сценарий хорошо выполняет свою конкретную задачу.
ОБНОВИТЬ
Просто совет по устранению неполадок на случай, если вы столкнетесь с этим. Этот скрипт оказался полезным сегодня утром, когда я получил письмо о сбойном массиве с:
Достигнут грязный предел
Устройство прошло только для чтения и не было видно в /proc/partitions
. Я перезагрузил сервер и увидел эти сообщения при загрузке:
Логический диск отключен из-за возможной потери данных. Выберите «F1», чтобы продолжить с отключенными логическими дисками. Выберите «F2», чтобы принять потерю данных и повторно включить логические диски.
Я выбрал F2 и RAID был в порядке и смонтирован при загрузке.
установить smartmontools. Письма вам, прежде чем диск не удается.