У нас есть сервер Linux, который интенсивно использовался в течение 3 лет. Мы запускаем на нем несколько виртуализированных серверов, некоторые из которых плохо себя вели, и в течение значительного времени была превышена емкость сервера ввода-вывода, что привело к плохому iowait. У него есть 4 500-гигабайтных накопителя Barracuda sata, подключенных к рейдовому контроллеру 3com 1 диск имеет ОС, а остальные 3 - это raid-5.
Теперь у нас есть споры о состоянии дисков и о том, активно ли они выходят из строя.
Вот часть вывода для 1 из 4 дисков. Все они имеют сравнительно схожую статистику:
Номер версии структуры данных атрибутов SMART: 10 Специфичные SMART-атрибуты поставщика с пороговыми значениями: ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Пред-сбой Всегда - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pre-fail Всегда - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Пред-сбой Всегда - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Пред-сбой Всегда - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26 184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Неизвестный_атрибут 0x0032 100 100 000 Old_age Always - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Tempera__el 0x0022 071 060 045 Old_age Always - 29 (срок службы мин. / Макс. 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Неисправимый 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 Версия журнала ошибок SMART: 1 Ошибки не зарегистрированы
Моя интерпретация этого состоит в том, что у нас не было никаких поврежденных секторов или других признаков того, что какой-либо из дисков активно выходит из строя.
Тем не менее, высокие значения Raw_Read_Error_Rate и Seek_Error_Rate указываются как признаки того, что диски умирают.