MTTF, MTBF, MTBR и MTBF для HP ProLiant Gen9

Я искал MTTF, MTBF, MTBR и MTBF для наших серверов HP Gen9, работающих в нашей производственной среде.

Корень моего вопроса, должен волноваться или нет.

Я не могу получить какие-либо хорошие данные, так как на каждом сервере установлено несколько аппаратных средств.

В моей последней компании у нас было около 2000 серверов dell r210 r410 r710. Я бы сказал, что в среднем у нас было около 5 серверов в день, которые имели какой-то сбой. Таким образом, около 0,25% сервера вышло из строя и требовалось заменить часть, прежде чем его можно было снова использовать.

В моей последней компании все было настроено в виде пары высокой доступности, инфраструктуры N + 2, поэтому не было никакого влияния на производство. Мы смогли заменить серверы и продолжать

В моем текущем офисе у нас работает 9 серверов (HP Gen9, Hyper-V 56 ВМ), мы не храним много запасных частей под рукой, также не управляется центр обработки данных, поэтому, если что-то умирает, нам нужно подождать около 45 минут, чтобы заменить что-нибудь.

Мой технический директор или ИТ-менеджер, похоже, обеспокоены, у них было около 2,5 дней простоя в прошлом году, я уверяю нас в необходимости кластеризации серверов, но они не видят в этом необходимости.

Здесь что-то не так или нет? Не уверен, что делать.

Я знаю, что это не моя ответственность, если что-то случится с CTO. Это очень маленькая компания, только технический директор, ИТ-менеджер, я (dev ops) и 1 сотрудник службы поддержки.

По всему опыту работы с производственной средой, он очень ограничен, способ настройки многих вещей я бы назвал очень младшим, ни мой технический директор, ни ИТ-менеджер не знали много о кластеризации до того, как я туда попал. Они были в середине проекта по настройке DR без HA, который я предположил, но проиграл.

hyper-v hardware hp-proliant

— Энтони Форнито
источник

HA стоит денег. Может быть, они думают, что это не стоит денег.

— Michael Hampton

Не беспокойтесь о показателях MTTF, MTBF, MTBR и MTBF ... почему они относятся к специфике вашей среды?

Серверы имеют внутренние резервы и могут быть чрезвычайно стабильными в работе. Но это зависит от вашей среды, дискового массива / состава, типов дисков, количества оперативной памяти, конфигурации процессора, тепловых характеристик, мощности и т. Д.

Использование какой-либо формы высокой доступности может снизить вероятность простоев и дает вам возможность перенести рабочую нагрузку в случае сбоя.

Это вопрос финансового и операционного риска.

Возможно, дополнительные затраты на переход от автономного к кластерному хранилищу достаточно высоки, что не имеет смысла для бизнеса? Возможно, простоя в течение 2,5 дней (доступность ~ 99,3%) достаточно для вашей работы. Вы должны сосредоточиться на внешней защите и хороших резервных копиях. Все ваши системы HP Gen9 имеют гарантию производителя сегодня, так что вы действительно имеете доступ к частям. Если у вас есть RAID, резервные блоки питания / вентиляторы и стабильное питание, вы охватили самые важные области.

Подумайте об этом с финансовой точки зрения, обрисуйте риски, связанные с этим расходы и постарайтесь найти убедительное экономическое обоснование того, что вы хотите.

— ewwhite
источник