Я работаю на удаленном сервере (Dell Poweredge), который был новой установки. Он имеет четыре диска (2 ТБ) и 2 SSD (250 ГБ). Один SSD содержит ОС (RHEL7), а четыре механических диска в конечном итоге будут содержать базу данных оракула.
Попытка создать программный RAID-массив привела к тому, что диски постоянно помечались как неисправные. Проверка dmesg выводит множество следующих ошибок:
[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current]
[127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed
[127491.719734] sd 0:0:4:0: [sde] CDB: Read(32)
[127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read
[127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08
[127497.440280] blk_update_request: I/O error, dev sdf, sector 106496
[127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read
Эти ошибки происходят для всех четырех механических дисков, (sdc / sdd / sde / sdf) SMARTctl прошел все четыре диска, длинные и короткие тесты. В настоящее время я использую badblocks (тест режима записи ~ 35 часов, возможно, еще 35).
Ниже приведены ошибки, которые я подозревал / учел при исследовании
Отказ жесткого диска - маловероятно, что 4 "восстановленных" диска будут DOA, не так ли?
Проблема с контроллером хранилища (плохой кабель?) - Похоже, это повлияет и на SSD?
- Проблема с ядром. Единственное изменение в стоковом ядре - добавление kmod-oracleasm. Я действительно не понимаю, как это вызвало бы эти сбои, ASM вообще не настроен.
Еще одним заслуживающим внимания событием было то, что при попытке обнуления дисков (часть раннего устранения неполадок) с помощью команды $ dd if = / dev / zero of = / dev / sdX были получены эти ошибки,
dd: writing to ‘/dev/sdc’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s
dd: writing to ‘/dev/sdd’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s
dd: writing to ‘/dev/sde’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s
dd: writing to ‘/dev/sdf’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s
Если бы кто-нибудь здесь мог поделиться некоторым пониманием того, что может быть причиной этого, я был бы благодарен. Я склонен следовать бритве Оккама и идти прямо к жестким дискам, единственное сомнение связано с вероятностью четырех неисправных жестких дисков из коробки.
Завтра я поеду на площадку для осмотра и доложу о своей оценке этой машины вышестоящим сотрудникам. Если есть что-то, что я должен осмотреть физически (кроме кабелей / соединений / источника питания), пожалуйста, дайте мне знать.
Спасибо.
smartctl -x /dev/sda
или что-то. Но очень подозрительно, что это один и тот же LBA на всех дисках.