по SMART жесткий диск не сломан, но у меня есть ошибки в dmesg


12

Иногда у меня возникают странные проблемы с загрузкой моего компьютера (на котором работает Debian). Поэтому я дал команду "dmesg". В его выводе я видел много ошибок. Однако, когда я запускаю расширенный SMART-тест на жестких дисках (используя команду «smartctl -t long / dev / sda»), в результате мои диски не ломаются.

Что может быть причиной этих ошибок?

Вот ошибки:

   (...)
      [  505.918537] ata3.00: exception Emask 0x50 SAct 0x400 SErr 0x280900 action 0x6 frozen
      [  505.918549] ata3.00: irq_stat 0x08000000, interface fatal error
      [  505.918558] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
      [  505.918566] ata3.00: failed command: READ FPDMA QUEUED
      [  505.918579] ata3.00: cmd 60/40:50:20:5b:60/00:00:0b:00:00/40 tag 10 ncq 32768 in
               res 40/00:54:20:5b:60/00:00:0b:00:00/40 Emask 0x50 (ATA bus error)
      [  505.918586] ata3.00: status: { DRDY }
      [  505.918595] ata3: hard resetting link
      [  506.410055] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
      [  506.422648] ata3.00: configured for UDMA/133
      [  506.422679] ata3: EH complete
      [ 1633.123880] md: bind<sdb3>
      [ 1633.187966] RAID1 conf printout:
      [ 1633.187977]  --- wd:1 rd:2
      [ 1633.187984]  disk 0, wo:0, o:1, dev:sda3
      [ 1633.187989]  disk 1, wo:1, o:1, dev:sdb3
      [ 1633.188866] md: recovery of RAID array md0
      [ 1633.188871] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
      [ 1633.188875] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
      [ 1633.188890] md: using 128k window, over a total of 1943618560k.
      [ 1634.167341] ata3.00: exception Emask 0x50 SAct 0x7f80 SErr 0x280900 action 0x6 frozen
      [ 1634.167353] ata3.00: irq_stat 0x08000000, interface fatal error
      [ 1634.167361] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
      [ 1634.167369] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167382] ata3.00: cmd 60/00:38:00:00:6f/02:00:01:00:00/40 tag 7 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167389] ata3.00: status: { DRDY }
      [ 1634.167395] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167407] ata3.00: cmd 60/00:40:00:02:6f/02:00:01:00:00/40 tag 8 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167413] ata3.00: status: { DRDY }
      [ 1634.167418] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167429] ata3.00: cmd 60/00:48:00:04:6f/02:00:01:00:00/40 tag 9 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167435] ata3.00: status: { DRDY }
      [ 1634.167439] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167451] ata3.00: cmd 60/00:50:00:06:6f/02:00:01:00:00/40 tag 10 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167457] ata3.00: status: { DRDY }
      [ 1634.167462] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167473] ata3.00: cmd 60/00:58:00:08:6f/02:00:01:00:00/40 tag 11 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167479] ata3.00: status: { DRDY }
      [ 1634.167484] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167495] ata3.00: cmd 60/00:60:00:0a:6f/02:00:01:00:00/40 tag 12 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167500] ata3.00: status: { DRDY }
      [ 1634.167505] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167516] ata3.00: cmd 60/80:68:00:0c:6f/00:00:01:00:00/40 tag 13 ncq 65536 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167522] ata3.00: status: { DRDY }
      [ 1634.167527] ata3.00: failed command: READ FPDMA QUEUED
      [ 1634.167538] ata3.00: cmd 60/00:70:80:0c:6f/02:00:01:00:00/40 tag 14 ncq 262144 in
               res 40/00:6c:00:0c:6f/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
      [ 1634.167544] ata3.00: status: { DRDY }
      [ 1634.167553] ata3: hard resetting link
      [ 1634.658816] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
      [ 1634.672645] ata3.00: configured for UDMA/133
      [ 1634.672696] ata3: EH complete
      [ 1637.687898] ata3.00: exception Emask 0x50 SAct 0x3ff000 SErr 0x280900 action 0x6 frozen
      [ 1637.687910] ata3.00: irq_stat 0x08000000, interface fatal error
      [ 1637.687918] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
      [ 1637.687926] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.687940] ata3.00: cmd 60/00:60:80:a7:af/02:00:02:00:00/40 tag 12 ncq 262144 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.687947] ata3.00: status: { DRDY }
      [ 1637.687953] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.687965] ata3.00: cmd 60/00:68:80:a9:af/02:00:02:00:00/40 tag 13 ncq 262144 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.687971] ata3.00: status: { DRDY }
      [ 1637.687976] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.687987] ata3.00: cmd 60/80:70:80:ab:af/01:00:02:00:00/40 tag 14 ncq 196608 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.687993] ata3.00: status: { DRDY }
      [ 1637.687998] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688009] ata3.00: cmd 60/00:78:00:ad:af/02:00:02:00:00/40 tag 15 ncq 262144 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688015] ata3.00: status: { DRDY }
      [ 1637.688020] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688031] ata3.00: cmd 60/80:80:00:af:af/00:00:02:00:00/40 tag 16 ncq 65536 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688037] ata3.00: status: { DRDY }
      [ 1637.688042] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688053] ata3.00: cmd 60/00:88:80:af:af/01:00:02:00:00/40 tag 17 ncq 131072 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688059] ata3.00: status: { DRDY }
      [ 1637.688064] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688075] ata3.00: cmd 60/80:90:80:b0:af/00:00:02:00:00/40 tag 18 ncq 65536 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688081] ata3.00: status: { DRDY }
      [ 1637.688085] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688096] ata3.00: cmd 60/00:98:00:b1:af/02:00:02:00:00/40 tag 19 ncq 262144 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688102] ata3.00: status: { DRDY }
      [ 1637.688107] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688118] ata3.00: cmd 60/00:a0:00:b3:af/01:00:02:00:00/40 tag 20 ncq 131072 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688124] ata3.00: status: { DRDY }
      [ 1637.688129] ata3.00: failed command: READ FPDMA QUEUED
      [ 1637.688140] ata3.00: cmd 60/00:a8:00:b4:af/01:00:02:00:00/40 tag 21 ncq 131072 in
               res 40/00:ac:00:b4:af/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
      [ 1637.688146] ata3.00: status: { DRDY }
      [ 1637.688154] ata3: hard resetting link
      [ 1638.179398] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
      [ 1638.192977] ata3.00: configured for UDMA/133
      [ 1638.193029] ata3: EH complete
      [ 1640.259492] md: export_rdev(sdb1)
      [ 1640.326109] md: bind<sdb1>
      [ 1640.346712] RAID1 conf printout:
      [ 1640.346724]  --- wd:1 rd:2
      [ 1640.346731]  disk 0, wo:0, o:1, dev:sda1
      [ 1640.346736]  disk 1, wo:1, o:1, dev:sdb1
      [ 1640.346893] md: delaying recovery of md1 until md0 has finished (they share one or more physical units)
      [ 1657.987964] ata3.00: exception Emask 0x50 SAct 0x40000 SErr 0x280900 action 0x6 frozen
      [ 1657.987975] ata3.00: irq_stat 0x08000000, interface fatal error
      [ 1657.987984] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
      [ 1657.987992] ata3.00: failed command: READ FPDMA QUEUED
      [ 1657.988006] ata3.00: cmd 60/00:90:00:30:2e/03:00:09:00:00/40 tag 18 ncq 393216 in
               res 40/00:94:00:30:2e/00:00:09:00:00/40 Emask 0x50 (ATA bus error)
      [ 1657.988013] ata3.00: status: { DRDY }
      [ 1657.988022] ata3: hard resetting link
      [ 1658.479548] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
      [ 1658.493107] ata3.00: configured for UDMA/133
      [ 1658.493147] ata3: EH complete
      [ 1670.547791] ata3: limiting SATA link speed to 1.5 Gbps
      [ 1670.547805] ata3.00: exception Emask 0x50 SAct 0x7f SErr 0x280900 action 0x6 frozen
      [ 1670.547812] ata3.00: irq_stat 0x08000000, interface fatal error
      [ 1670.547820] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
      [ 1670.547826] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547839] ata3.00: cmd 60/80:00:00:1f:2e/01:00:0c:00:00/40 tag 0 ncq 196608 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547846] ata3.00: status: { DRDY }
      [ 1670.547852] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547863] ata3.00: cmd 60/80:08:80:20:2e/00:00:0c:00:00/40 tag 1 ncq 65536 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547869] ata3.00: status: { DRDY }
      [ 1670.547875] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547886] ata3.00: cmd 60/00:10:00:21:2e/02:00:0c:00:00/40 tag 2 ncq 262144 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547892] ata3.00: status: { DRDY }
      [ 1670.547896] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547907] ata3.00: cmd 60/00:18:00:23:2e/02:00:0c:00:00/40 tag 3 ncq 262144 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547913] ata3.00: status: { DRDY }
      [ 1670.547918] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547929] ata3.00: cmd 60/00:20:00:25:2e/01:00:0c:00:00/40 tag 4 ncq 131072 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547935] ata3.00: status: { DRDY }
      [ 1670.547940] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547951] ata3.00: cmd 60/00:28:00:26:2e/02:00:0c:00:00/40 tag 5 ncq 262144 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547957] ata3.00: status: { DRDY }
      [ 1670.547961] ata3.00: failed command: READ FPDMA QUEUED
      [ 1670.547972] ata3.00: cmd 60/00:30:00:28:2e/02:00:0c:00:00/40 tag 6 ncq 262144 in
               res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      [ 1670.547978] ata3.00: status: { DRDY }
      [ 1670.547987] ata3: hard resetting link
      [ 1671.039264] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
      [ 1671.053386] ata3.00: configured for UDMA/133
      [ 1671.053444] ata3: EH complete
      [ 2422.512002] md: md0: recovery done.
      [ 2422.547344] md: recovery of RAID array md1
      [ 2422.547355] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
      [ 2422.547360] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
      [ 2422.547378] md: using 128k window, over a total of 4877312k.
      [ 2422.668465] RAID1 conf printout:
      [ 2422.668474]  --- wd:2 rd:2
      [ 2422.668480]  disk 0, wo:0, o:1, dev:sda3
      [ 2422.668486]  disk 1, wo:0, o:1, dev:sdb3
      [ 2469.990451] md: md1: recovery done.
      [ 2470.049986] RAID1 conf printout:
      [ 2470.049997]  --- wd:2 rd:2
      [ 2470.050003]  disk 0, wo:0, o:1, dev:sda1
      [ 2470.050009]  disk 1, wo:0, o:1, dev:sdb1
      [ 3304.445149] PM: Hibernation mode set to 'platform'
      [ 3304.782375] PM: Syncing filesystems ... done.
      [ 3307.028591] Freezing user space processes ... (elapsed 0.001 seconds) done.
      (...)

1
Это может быть связано с неисправным SATA или кабелем питания, или, возможно, с плохим источником питания.
Томас

1
Я также видел это с плохими контроллерами, которые зависают и нуждаются в перезагрузке.
Стивен Харрис

1
Я добавил ответ на этот вопрос, который включал похожие, но не идентичные выходные данные dmesg, например (sd 1: 0: 0: 0: отклонение ввода-вывода для автономного устройства и предупреждение EXT4-fs). Я чувствую, что это помогло бы людям найти проблему в поиске , Ответ был удален, хотя он не соответствовал ни одной из причин, указанных на unix.stackexchange.com/help/deleted-answers . У меня была проблема на SSD, смонтированном в / home. Я попытался отключить и снова подключить кабель питания и SATA, но ошибка не исчезла. К счастью, у меня был запасной кабель SATA. После замены кабеля SATA у меня не было ошибок и проблема не решилась.
htaccess

Ответы:


21

Во- первых, имейте в виду , что SMART говоря , что ваш привод здоров , не обязательно означает , что диск является здоровым. SMART отчеты - это помощь , а не абсолютная правда.

Если все, что вас интересует, это что делать, а не почему, тогда не стесняйтесь прокрутить вниз до последних нескольких абзацев; Тем не менее, промежуточный текст расскажет вам, почему я думаю, что я предлагаю правильный курс действий, и как извлечь это из того, что вы опубликовали.

С учетом сказанного давайте посмотрим, что говорит нам одна из этих ошибок.

[ 1670.547805] ata3.00: exception Emask 0x50 SAct 0x7f SErr 0x280900 action 0x6 frozen
[ 1670.547812] ata3.00: irq_stat 0x08000000, interface fatal error
[ 1670.547820] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
[ 1670.547826] ata3.00: failed command: READ FPDMA QUEUED
[ 1670.547839] ata3.00: cmd 60/80:00:00:1f:2e/01:00:0c:00:00/40 tag 0 ncq 196608 in
           res 40/00:2c:00:26:2e/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
[ 1670.547846] ata3.00: status: { DRDY }
[ 1670.547852] ata3.00: failed command: READ FPDMA QUEUED

(Я надеюсь, что я получил части, которые должны идти вместе, но вы получали их вместе, так что все должно быть в порядке в любом случае.)

В Linux ata Wiki есть страница, объясняющая, как читать эти ошибки . В частности,

  • statusЗначение DRDYсредств «Устройство готово. Обычно 1, если все в порядке.» Видеть значение состояния DRDYсовершенно нормально и ожидаемо.
  • SError имеет несколько значений компонентов, из которых вы видите (в этом конкретном фрагменте):
    • UnrecovData «Произошла ошибка целостности данных, интерфейс не восстановился»
    • HostInt «Внутренняя ошибка адаптера хост-шины»
    • 10B8B «Произошла ошибка декодирования от 10b до 8b»
    • BadCRC «Произошла ошибка CRC канального уровня»

Кодирование 10b8b, которое кодирует 8 битов как 10 битов для обеспечения как синхронизации сигналов, так и обнаружения ошибок, используется в физических кабелях, а не обязательно в самом накопителе. Диск, скорее всего, использует другие формы кодирования FEC или ECC, и ошибка там обычно будет отображаться как некоторая форма ошибки ввода-вывода, вероятно со errorзначением UNC(«неисправимая ошибка - часто из-за плохих секторов на диске») с вероятностью «ошибка носителя» («программное обеспечение обнаружило ошибку носителя») в скобках в конце resстроки. Последнее не то, что вы видите, поэтому, хотя мы не можем полностью исключить это, это кажется маловероятным.

«Канальный уровень» - это физические кабели и трассировки печатной платы между собственным контроллером накопителя и микросхемой интерфейса накопителя (вероятно, является частью южного моста на материнской плате вашего компьютера, но может располагаться на внешнем адаптере HBA).

Адаптер главной шины, также известный как HBA, является схемой, которая подключается к оборудованию хранения. Также в разговорной речи известный как «дисковый контроллер», термин, который немного ошибочен в современных системах. Наиболее заметной частью HBA обычно являются порты подключения, чаще всего в наши дни это SATA или форм-фактор SAS.

Эти UnrecovDataи HostIntфлаги в основном говорят нам , что «что - то просто пошло не так, и не было никакой возможности восстановить или не попытка восстановления не была сделана». Скорее всего RecovData, обратное , что указывает на то, что «произошла ошибка целостности данных, но интерфейс восстановлен». (В качестве отступления я, вероятно, использовал бы HBAIntвместо HostInt, поскольку «хост» относится к HBA, а не ко всей системе.)

Комбинация 10B8Bи BadCRC, которая указывает на физический канальный уровень, заставляет меня заподозрить проблему с кабелями.

Это подозрение также подтверждается тем фактом, что самодиагностики SMART, которые являются полностью внутренними для накопителя, за исключением отчетов о состоянии, не обнаруживают ошибок, которые, по мнению производителя, являются достаточно серьезными, чтобы гарантировать получение отчетов о результатах. Если на накопителе возникли проблемы с хранением или чтением данных, в частности, длинная самопроверка SMART должна была сообщить об этом.

TL; DR:

Первое, что я хотел бы сделать, это просто отключить и снова подключить кабель SATA на обоих концах; он может быть слегка ослаблен, что может привести к потере электрического контакта с перерывами. Посмотрите, решит ли это проблему. Возможно, стоит сделать это со всеми кабелями SATA на вашем компьютере, а не только с поврежденным диском. Если вы используете внешнюю плату HBA, я бы также удалил и переустановил эту карту, в основном потому, что ее легко попробовать, пока вы уже возитесь с кабелями.

В противном случае попробуйте выбросить и заменить кабель SATA, желательно на высококачественный кабель. Высококачественный кабель будет немного дороже, но я считаю, что он обычно стоит небольших дополнительных затрат, если он помогает избежать таких головных болей. Никто не любит видеть их ошибки хранения!


2
Я отключил и снова подключил кабель SATA, и это решило проблему. Благодарность!
user983447

@ user983447 Рад, что смог помочь!
CVn

0

В моем случае я заметил, что я подключил два диска к двум разным дисковым контроллерам: первый был PCI-Express, а второй обычный PCI. Я избавился от ошибки BadCRC, когда подключил оба RAID-диска к одному контроллеру.


1
Так, когда тот контроллер умирает, он берет оба диска с этим?
Ройма

Да, но гораздо более вероятно, что диск умрет, чем контроллер. Также было бы лучше НЕ использовать PCI-контроллер, а высокоскоростной PCI-Express-контроллер.
PHZ.fi-
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.