Где вы находите данные MTBF?


9

Среднее время между сбоями может быть трудно интерпретировать, но существует множество статистических методов, которые вы можете использовать, если у вас есть какие-то точные данные.

Проблема в том, что никто больше не сообщает их номера MTBF. (В любом случае, кроме производителей жестких дисков.)

Куда вы обращаетесь, чтобы найти данные MTBF для компонентов и серверов?


Мне любопытно узнать, как вы используете данные MTBF.
dr.pooter

Ответы:


2

Почему MTBF не имеет значения

Среднее время между номерами отказов не так важно, как число неисправимых ошибок. MTBF имеет дело с полным отказом детали, прочитайте диск. Однако это число не имеет смысла, когда один бит по ошибке вызовет панику RAID 5 и включит горячий резерв.

В то время как MTBF для накопителей профессионального и потребительского уровня увеличился на порядок в последние годы, количество неисправимых ошибок остается относительно постоянным. Эта скорость оценивается в 10 ^ 14 бит, так что один источник на 12 терабайт считывается, для потребительских дисков SATA, источника .

Почему вы должны спать по массиву RAID 5

Таким образом, это всего лишь 6 проходов абсолютно нового 2-Тб диска. Сколько времени занимает чтение 12Tb данных? Намного меньше времени, чем MTBF для этого диска.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Что более важно, так это вероятность двойного сбоя чтения на массиве RAID 5, состоящем из таких больших дисков. При использовании массива RAID 5 емкостью 7 1 ТБ вероятность повторных сбоев чтения при перестройке RAID составляет 50%.

http://blogs.zdnet.com/storage/?p=162


Вы всегда можете использовать RAID6, возможно?
Chopper3

3
Отличный ответ, но охватывает только жесткие диски
Марк Хендерсон

@ Chopper3, да, RAID6 действительно улучшает ситуацию, но как только вы выделите два диска для контроля четности, а третий - для горячего резервирования, то на массиве из 7 дисков вы приблизитесь к тому же пространству, что и массив RAID10.
Дейв Чейни

Я ищу данные не только для жестких дисков. Время от времени целые серверы по-прежнему выходят из строя, поэтому стоит измерять, как часто.

1

Жаль, что люди думают, что показатели MTBF не относятся к сложным системам. Настоящая проблема (afaik) заключается в том, что производители не имеют показателей MTBF для своих аппаратных модулей. Это цифры, которые по всем правам должны быть доступны. Dell говорит: «Dell больше не перечисляет конкретные MTBF для своих серверов». на самом деле ужасно! Они также могут сказать: «Ну, наш материал действительно недостаточно надежен, чтобы использовать его там, где требуется показатель MTBF».

Предполагается, что инженер по надежности (или парень в шляпе RE) ограничивает область исследования доступности. Это часто ограничивается аппаратными модулями.

Что касается классификации того, что является ошибкой ... Вот почему мы проводим анализ FMECA.

Конечно, системы являются сложными, а режимы сбоев включают сбои программного обеспечения, но это часто не входит в сферу исследования. Мы хотим MTBF Цифры для оборудования. Попросите вашего продавца предоставить это. Это их техническая обязанность предоставить его вам ... Если они откажутся или сделают шаг в сторону, отправляйтесь туда, где есть серверы телекоммуникационного уровня с обязательными показателями доступности для оборудования.


Проблема, когда поставщику приходится публиковать MTBF, состоит в том, что он должен публиковать его раньше, чем сможет собрать реальные данные. Следовательно, они должны производить MTBF посредством некоторой экстраполяции. Иногда это может быть далеко. Худший случай, который я видел, был выключен более чем на три порядка.
Касперд

0

Я видел MTBF на сайтах поддержки компании. Поговорите с вашим продавцом или SE, чтобы получить информацию.


0

На мой взгляд, номера MTBF стали инструментом продаж. Современное оборудование достигло состояния, когда цифры MTBF практически бесполезны. Даже самый низкий из продавцов с низким уровнем производительности производит оборудование, которое превышает любой разумный цикл обновления. Как вы заметили, никто не сообщает номера MTBF. Я считаю, что это причина.


И все же, некоторые серверы все еще более надежны, чем другие. Нам нужно ответить на такие вопросы, как "стоит ли второй блок питания?" Для этого нам нужны данные. В идеале, это была бы реальная статистика отказов, сообщенная для множества подобных устройств. Мы используем MTBF в качестве слабого прокси для этого фактического распределения.

Справедливо. В моем маленьком мире идея избыточности является ожидаемой частью процесса. Для другого примера, посмотрите на большинство крупных хостинг-провайдеров или Google. Я по-прежнему предполагаю, что, учитывая товарный статус серверов Wintel, это убывающая проблема. Если вы говорите о Z-серии или аналогичных, уравнения и ожидания сильно отличаются.
dr.pooter

0

К сожалению, MTBF не является практичным или надежным измерением на современных серверах. Общая концепция MTBF заключается в том, что если многие люди используют определенную модель / конфигурацию в течение длительного времени, мы, вероятно, можем знать ее надежность.

Сегодня большинство из нас радуются обмену потенциальной дополнительной надежности на доказанную дополнительную производительность и энергоэффективность. Например, вы бы построили свои новые серверы на оборудовании 18-24 месяцев только потому, что оно доказало свою надежность? или просто использовать процессоры последнего поколения с большим количеством ядер, мощностью и энергоэффективностью?

Кроме того, в отличие от систем телефонии старой школы, системы достаточно индивидуализированы и, конечно, сильно зависят от программного обеспечения. Насколько надежна версия BIOS x.xx или версия драйвера y.yyy? Последние исправления ОС / БД / сервера приложений повышают стабильность или имеют регрессии стабильности? Сколько серверов в мире на самом деле использует ту же самую версию аппаратного обеспечения / стека, что и вы?

Если вам нужна высокая доступность, вам все равно нужно будет добавить избыточность в вашу систему (двойное-все, кластеризация, горячее резервирование, DRP, что у вас есть). Таким образом, относительная надежность каждого аппаратного компонента, как правило, не является существенным фактором, поскольку вы строите свою инфраструктуру, чтобы выдерживать сбои отдельных компонентов. Просто жить с неопределенностью (надежность имеет обратную силу) и планировать соответственно.


Проблема постоянно меняющихся конфигураций является реальной. Это затрудняет накопление опыта с одной точкой конфигурации. Тем не менее, если вы планируете HA, даже с резервированной конфигурацией, вы должны иметь некоторое представление о надежности отдельных устройств.

Кажется, у ИТ нет надежды когда-либо стать наукой. Мы продолжаем работать над предположениями, без точных данных и тратой ресурсов. Больше похоже на черную магию, чем что-либо в наши дни. Инжиниринг кажется отдаленной целью.
Джованни Тирлони

0

Я согласен с большинством других ответов: номера MTBF мне не нужны, и я их никогда не проверяю.

Единственное исключение - жесткие диски, но даже там, я только смотрю на MTBF очень грубо, будучи уверенным в покупке более надежных дисков «серверного класса», если есть выбор.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.