Сколько перераспределений SMART сектора указывают на проблемы?


17

У меня есть устройство NAS, которому чуть больше месяца. Он настроен для отправки мне по электронной почте оповещений, генерируемых данными SMART на жестких дисках. Через один день один из жестких дисков сообщил, что сектор вышел из строя и был перераспределен. За первую неделю это число возросло до шести секторов для данного жесткого диска. Через месяц это число составляет девять перераспределенных секторов. Скорость определенно замедляется.

NAS настроен на шесть дисков по 1,5 ТБ в конфигурации RAID-5. С такими накопителями большой емкости я бы ожидал, что сектор время от времени будет выходить из строя, поэтому я не был обеспокоен тем, когда первые несколько секторов были перемещены. Меня беспокоит то, что ни один из других дисков не сообщает о каких-либо проблемах.

С какой скоростью или общим количеством перемещений я должен начать беспокоиться о здоровье накопителя? Может ли это варьироваться в зависимости от емкости диска?


хороший, Джереми. один из лучших на сервере, так как многие другие найдут его полезным, и найти ответ на него непросто. определенно заслуживает более +2. Вы можете перефразировать вопрос так, чтобы он относился не только к NetGear, но и к хранилищу в целом
username

Спасибо за отзыв, я внес изменения, которые вы предложили, и обновил ситуацию.
Джереми

1
Я заменяю диски в одном перераспределенном секторе. Вы должны ожидать ноль в течение гарантийного срока привода. Производители всегда соблюдали гарантию на эти накопители.
Майкл Хэмптон

Ответы:


13

Приводы, как и большинство компонентов, имеют частоту отказов кривой ванны. Вначале они сильно терпят неудачу, имеют относительно низкую частоту отказов в середине, а затем сильно терпят неудачу, когда достигают конца своей жизни.

Подобно тому, как весь диск следует этой кривой, определенные области диска также будут следовать этой кривой. Вы увидите много перераспределения секторов в начале использования диска, но это должно сузиться. Когда накопитель начинает выходить из строя в конце срока службы, он начинает терять все больше и больше секторов.

Вам не нужно беспокоиться о 6 (в зависимости от привода - обратитесь к производителю), но вам нужно смотреть и видеть частоту каждого нового перераспределения. Если ухудшение ускоряется или остается прежним, беспокойтесь. В противном случае все должно быть хорошо после начального периода обкатки.

-Адам


Небольшой момент: приводы не будут работать долго до их MTBF. Я думаю, вы имеете в виду, что они терпят неудачу, поскольку приближаются к ожидаемой продолжительности жизни.
Эдди

5
Разве Google не полностью развенчал теорию "кривой ванны"?
Insyte

20

Перечитывая статью Google на тему « Тенденции отказов в большом количестве накопителей на дисках », я думаю, что могу с уверенностью сказать, что ответ Адама неверен. При анализе чрезвычайно большой совокупности накопителей примерно 9% имели ненулевое число перераспределений. Вот цитата:

После их первого перераспределения вероятность отказа дисков в течение 60 дней в 14 раз выше, чем у дисков без подсчета перераспределения, что делает критический порог для этого параметра также единым.

Это еще более интересно, когда речь идет о «автономных перераспределениях», которые являются перераспределениями, обнаруженными во время фоновой очистки диска, а не во время фактических запрошенных операций ввода-вывода. Их вывод:

После первого перераспределения в автономном режиме вероятность сбоя дисков в течение 60 дней в 21 раз выше, чем у дисков без перераспределения в автономном режиме; эффект, который снова более радикальный, чем общее перераспределение.

Моя политика отныне будет заключаться в том, что диски с ненулевым количеством перераспределений должны быть запланированы для замены.


Это интересно, я слышал об этой газете, но мне, возможно, придется перечитать ее. FWIW, 4 из 6 дисков в моем NAS имеют перераспределенные сектора. Спасибо за ответ.
Джереми

3

Разные накопители, вероятно, имеют разные параметры. На диске, который я в последний раз проверял, это был диск корпоративной серии объемом 1 ТБ от одного поставщика, было 2048 зарезервированных секторов для перераспределения.

Вы можете оценить количество зарезервированных секторов, просматривая отчет SMART на диске, на котором имеется ненулевое количество перераспределенных секторов. Рассмотрите отчет о неисправном диске ниже.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Здесь 95% его зарезервированной мощности было использовано, что составляет 1955 секторов. Поэтому начальная емкость была около 2057 года. Фактически это 2048, разница связана с ошибкой округления.

SMART переводит диск в неисправное состояние, когда количество перераспределенных секторов достигает определенного порогового значения. Для данного привода этот порог установлен на 64% от зарезервированной емкости. Это примерно 1310 переназначенных секторов.

Однако зарезервированные сектора не лежат в непрерывном промежутке. Вместо этого они разбиты на несколько групп, каждая группа используется для переназначения секторов из определенной части диска. Это сделано для того, чтобы данные были локальными для области на диске.

Недостатком локальности является то, что на диске может быть много зарезервированных секторов. Тем не менее, одна область может уже исчерпать зарезервированные мощности. В этом случае поведение зависит от прошивки. Мы наблюдали, что на одном диске он переходит в состояние FAILED и блокируется при возникновении ошибки в части, которая больше не защищена.


Как вы определили, что «было 2048 зарезервированных секторов для перераспределения»?
AJ.

Возможно, 2047 год - это максимальное количество перераспределяемых секторов. У одного из моих дисков было ровно 2047, когда он был куплен на eBay за «новый», то есть 0x7FF, также b11,111,111,111. Переход на 2048 год был бы лишним.
Дэвид

2

Возможно, вы захотите запустить длинную самопроверку SMART, если накопитель ее поддерживает. Это может дать вам больше информации о состоянии диска. Если ваш NAS не может этого сделать, и если вы можете вытащить диск или выключить NAS на несколько часов, вы можете выполнить долгую самопроверку, подключив жесткий диск к другой машине.



1

Разные производители имеют разные числа «приемлемых потерь» (та же идея, что и для мониторов и плохих пикселей). Обратитесь к производителю дисков, чтобы узнать их стандарт.

Хотя это выглядит как плохая тенденция ...


-1

Western Digital особенно гордится технологией, которая восстанавливает поврежденный сектор в приемлемое время вместо стоп-диска, помещенного в RAID, его название TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Время обычно составляет 5,7 секунды.

Как я обнаружил в Интернете, есть диски WD с отключенной опцией, но некоторые люди включили эту функцию на дешевых дисках Green WD, а затем поместили их в RAID.

Утилита WDTLER удалена с сайта поддержки WD, но ее легко найти через Google.

PS Я использую эту утилиту только для чтения статуса и не использую RAID сейчас :)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.