Замена жестких дисков [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за помощью в справочный центр .

Закрыто 8 лет назад .

Мне было интересно, будет ли хорошей идеей заменить жесткий диск на (довольно) критичном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.

Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на разных серверах, я могу пошатнуться, какие жесткие диски заменены.

Это хорошая идея, или люди просто ждут неудачи?

hardware hard-drive lifecycle

— Garfonzo
источник

Ответы:

Компания Google провела исследование дисковых накопителей и обнаружила очень небольшую взаимосвязь между сроком службы дисков и поломками. Тесты SMART также не показывают сбоев.

Мои локальные наблюдения (> 500 серверов) похожи. У меня новые диски быстро выходят из строя, в то время как старые все еще пыхтят.

Мое общее правило: если мы видели проблемы с диском (SMART или системные ошибки), мы немедленно его заменяем. Если нет, то диски отключаются, когда это делает сервер.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

— jeffatrackaid
источник

Это было вообще то, о чем я думал, но хотел посмотреть, что делают другие. Спасибо

— Гарфонзо

Я согласен. Мы наблюдаем гораздо более высокую частоту отказов на новых 2,5-дюймовых дисках SAS, чем на 10-летних серверах с 3,5-дюймовыми дисками SCSI 9 ГБ!

— Джеймс О'Горман

@ JamesO'Gorman Производственные процессы меняются ... меня удивляет, что было сделано с новыми приводами в рамках некоторого технического компромисса.

— Эйвери Пейн

В Microsoft Technet также есть статья о толерантности к сбоям, в которой кратко говорится о сбое жесткого диска / механического компонента ( technet.microsoft.com/en-us/library/bb742464.aspx ) - они немного рассказывают о «кривой ванны», которую механический отказы компонентов имеют тенденцию следовать.

— voretaq7

@AveryPayne Re новые накопители, обратите внимание, что 2,5-дюймовые накопители имеют НАМНОГО более жесткие допуски - в результате то, что раньше было «приемлемым» механическим перекосом на 3,5- дюймовом накопителе, может привести к катастрофическому отказу 2,5-дюймового накопителя. См. Также статью TechNet. Я рассказал о кривой ванны: механические компоненты в целом страдают от высокой младенческой смертности, а затем остаются относительно стабильными до тех пор, пока, наконец, не умрут от «старости». 2,5-дюймовые диски все еще находятся на территории «младенческой смертности» - по моему опыту минимум 1 год эксплуатации.

— voretaq7

Нет.

Одна из самых больших проблем с заменой жесткого диска на активном производственном сервере состоит в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления гораздо выше, чем риск, связанный с оставлением 3-летнего накопителя на месте.

Возьмем крайний пример: если вы последовательно заменяете каждый диск в массиве RAID5 с 6 дисками, состоящем из дисков объемом 2 ТБ, ваш теоретический риск неустранимой ошибки чтения во время одного из восстановлений составляет около 58% (согласно моей математике для салфеток; пожалуйста, сделайте свое и сравните заметки). Другими словами: ваша «превентивная» замена диска, по сути, не что иное, как акт саботажа.

Единственный случай, когда я рассмотрю возможность обновления дисков на старом сервере, - это его «восстановление», например, после того, как он был выведен из эксплуатации из одной задачи и перед тем, как вернуть его в эксплуатацию с новой ролью. Даже в этот момент требования к емкости и производительности будут гораздо важнее, чем возраст дисков.

— штурмовик типа "Скайхки"
источник

+1 для запуска перестроения

— gregmac

Можете ли вы объяснить, почему риск составляет 58%? Если диск регулярно патрулируется, почему это будет больше стресса восстановления?

— Мирча Вутцовичи

@MirceaVutcovici, потому что в схеме RAID-5 все диски будут постоянно активны во время перестройки по сравнению со случайным случайным поиском здесь или там. Другими словами, «нагрузка» на все диски возрастает, и при этом повышается риск запуска второго неисправного диска.

— Эйвери Пейн

@Avery Payne Я знаю, что вы больше напрягаете диски во время перестройки. Я пытаюсь понять, почему перекомпоновка будет больше загружать диски, чем проверка целостности.

— Мирча Вутцовичи

@MirceaVutcovici Точная цифра (и как это сделать математику) спорна, но в нижней строке вы должны прочитать 10 терабайт данных в шесть раз , без использования диска четности , чтобы исправить любые ошибки чтения, для того , чтобы выполнить шесть перестраивает. Вероятность чтения 60 терабайт данных без каких-либо ошибок совсем не в вашу пользу.

— Скайхок

Я не видел это. Мы держим серверы на гарантии, пока они не будут сняты с производства - 5 лет. Стандартный RAID 5 позволяет вам пережить сбой диска, поэтому мы просто держим пару дисков под рукой, чтобы сразу приступить к восстановлению и на критически важных серверах, мы включаем горячую копию или запускаем RAID 10.

Если вы заметили сбой нескольких дисков недавно на сервере у вас может быть проблема с объединительной платой. Может быть новая вибрация или пыль тоже из соседней конструкции.

— Пол Акерман
источник

Это не совсем правда. если большое количество дисков принадлежит одной и той же партии, риск одновременного сбоя возрастает, когда вы добавляете нагрузку на восстановление. Как отмечалось в другом ответе, увеличение размеров RAID5 приводит к увеличению вероятности URE во время перестроения, что делает ваш массив ниже порога достоверности raid5.

— Магеллан