Я искал MTTF, MTBF, MTBR и MTBF для наших серверов HP Gen9, работающих в нашей производственной среде.
Корень моего вопроса, должен волноваться или нет.
Я не могу получить какие-либо хорошие данные, так как на каждом сервере установлено несколько аппаратных средств.
В моей последней компании у нас было около 2000 серверов dell r210 r410 r710. Я бы сказал, что в среднем у нас было около 5 серверов в день, которые имели какой-то сбой. Таким образом, около 0,25% сервера вышло из строя и требовалось заменить часть, прежде чем его можно было снова использовать.
В моей последней компании все было настроено в виде пары высокой доступности, инфраструктуры N + 2, поэтому не было никакого влияния на производство. Мы смогли заменить серверы и продолжать
В моем текущем офисе у нас работает 9 серверов (HP Gen9, Hyper-V 56 ВМ), мы не храним много запасных частей под рукой, также не управляется центр обработки данных, поэтому, если что-то умирает, нам нужно подождать около 45 минут, чтобы заменить что-нибудь.
Мой технический директор или ИТ-менеджер, похоже, обеспокоены, у них было около 2,5 дней простоя в прошлом году, я уверяю нас в необходимости кластеризации серверов, но они не видят в этом необходимости.
Здесь что-то не так или нет? Не уверен, что делать.
Я знаю, что это не моя ответственность, если что-то случится с CTO. Это очень маленькая компания, только технический директор, ИТ-менеджер, я (dev ops) и 1 сотрудник службы поддержки.
По всему опыту работы с производственной средой, он очень ограничен, способ настройки многих вещей я бы назвал очень младшим, ни мой технический директор, ни ИТ-менеджер не знали много о кластеризации до того, как я туда попал. Они были в середине проекта по настройке DR без HA, который я предположил, но проиграл.