Я нахожусь в среде, содержащей множество серверов Supermicro, оборудованных аппаратными RAID-контроллерами Adaptec и LSI MegaRAID . Эти контроллеры содержат кэш-модули с батарейным питанием, которые помогают повысить производительность записи и защитить данные в пути.
Частыми проблемами поддержки является сбой батареи контроллера RAID. Это сдвигает массив от обратной записи для записи через режим. Очевидно, что это отрицательно сказывается на производительности, поскольку система работает с пониженной скоростью записи. Это продолжается до тех пор, пока не будет установлено окно простоя для отключения системы и замены батареи.
Это очень рутинная операция для нас; почти еженедельно на нескольких тысячах физических серверов ... У нас даже есть зарядные станции для подготовки сменных батарей, чтобы их можно было заменить без цикла зарядки.
Возможно, я испорчен долгой историей с серверами HP ProLiant и RAID-контроллерами Smart Array , но у систем HP срок службы батареи обычно составляет 4-6 лет. В конце концов они прекратили использование батарей RAID примерно в 2009 году. Они были заменены модулями памяти с суперконденсаторами (флэш-кэш записи или FBWC) и не требуют замены, утилизации или длительного начального цикла зарядки.
Поскольку я вижу, что сбои батареи контроллера Adaptec и LSI иногда происходят в системах, которые эксплуатируются менее 12 месяцев, мне интересно, распространено ли это в других средах.
Если это распространено, как другие крупные серверные среды справляются с этим?
- Какие-либо советы или рекомендации по замене батарей RAID?
- Существуют ли какие-либо параметры конфигурации, которые могут помочь?
- Насколько это мешает работе в вашей среде?
- Может ли плохое охлаждение шасси и температура быть фактором?
- Мы делаем что-то не так?
- Контроллеры Dell PERC производятся компанией LSI. В средах Dell одинаковое время работы от батареи?
Литература по продуктам LSI, в которой описывается аккумулятор нового поколения, который может прослужить дольше, чем 1 год.
Сервер HP ProLiant DL585 G2 с 1000+ дневным временем безотказной работы и счастливой батареей RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK