Один из сайтов моего клиента получил прямой удар молнии на прошлой неделе (по совпадению в пятницу 13-го! ).
Я был удален от сайта, но работая с кем-то на месте, я обнаружил странную картину повреждений. Обе интернет-ссылки были недоступны, большинство серверов были недоступны. Большая часть повреждений произошла в MDF , но один IDF, подключенный по оптоволокну, также потерял 90% портов на элементе стека коммутатора. Было достаточно запасных портов коммутатора для перераспределения кабелей в другом месте и перепрограммирования, но было время простоя, когда мы преследовали уязвимые устройства.
Это было новое здание / складское помещение, и большое внимание было уделено планированию серверной комнаты. Главная серверная комната работает от ИБП APC SmartUPS RT 8000VA с двойным преобразованием, работающего от генератора. Произошло правильное распределение энергии на все подключенное оборудование. Выездная репликация данных и резервное копирование системы были на месте.
В целом, ущерб (который я знаю) был:
- Неисправная 48-портовая линейная карта на коммутаторе шасси Cisco 4507R-E .
Сбой коммутатора Cisco 2960 в стеке из 4 участников.(ой ... свободный кабель)- Несколько нестабильных портов на коммутаторе Cisco 2960.
- Материнская плата и блок питания HP ProLiant DL360 G7.
- Elfiq WAN Link Balr .
- Один Multitech факс модем.
- WiMax / Фиксированная беспроводная интернет-антенна и инжектор питания.
- Многочисленные PoE-устройства (VoIP-телефоны, точки доступа Cisco Aironet, IP-камеры безопасности)
Большинство проблем были связаны с потерей целого блейд-коммутатора в Cisco 4507R-E. Это содержало некоторую сеть VMware NFS и канал связи с брандмауэром сайта. Сбой хоста VMWare, но HA позаботился о восстановлении сетевого подключения виртуальной машины. Я был вынужден перезагрузить / выключить и выключить несколько устройств, чтобы очистить фанки. Так что времени на восстановление было мало, но мне любопытно, какие уроки следует извлечь ...
- Какие дополнительные меры защиты должны быть реализованы для защиты оборудования в будущем?
- Как мне подойти к гарантии и замене? Cisco и HP заменяют товары по контракту. У дорогого балансировщика ссылок Elfiq WAN на их веб-сайте есть реклама, которая в основном говорит: «Плохо, используйте сетевой сетевой фильтр ». (кажется, что они ожидают этот тип отказа)
- Я был в IT достаточно долго, чтобы столкнуться с повреждением молнии в прошлом, но с очень ограниченным воздействием; например, сетевой интерфейс дешевого ПК или уничтожение мини-коммутаторов.
- Есть ли что-нибудь еще, что я могу сделать, чтобы обнаружить потенциально нестабильное оборудование, или мне просто нужно ждать появления странного поведения?
- Было ли это просто невезением или что-то, что должно быть действительно учтено при восстановлении после аварии?
Имея достаточно $$$, можно встроить всевозможные избыточности в среду, но каков разумный баланс профилактического / продуманного дизайна и эффективного использования ресурсов здесь?