Расшифровка продолжающихся сообщений системного журнала mpt2sas

15

Резюме

Я получал эти загадочные сообщения в системном журнале с тех пор, как установил какое-то новое оборудование, и я не могу понять, в чем проблема, если она серьезная или что с этим делать.

Они из нового SATA HBA и следуют шаблону. Я получу несколько первых сообщений, за которыми последуют несколько вторых сообщений через 5-30 секунд. Они приходят в виде BLOB-объектов, которые регистрируются в одну и ту же секунду, и точное количество каждого из них варьируется от 2 до 35. Между появлением записей могут быть минуты или часы.

Пример двух сообщений:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Это всегда всегда 0x31120303, за которым следует 0x31110d01.

mpt2sas - это драйвер для адаптера шины SATA, который я использую, но содержание ошибок слишком загадочное. Это не говорит мне, в чем проблема, с каким диском или портом или с какой серьезностью.

аппаратные средства

Supermicro X9SCL с Xeon E3-1220 и 8 ГБ оперативной памяти.

SBA / SATA HBA Supermicro AOC-USAS2- L8I на базе LSI SAS2008 подключен к комплекту лотков для дисков Supermicro CSE-M35T-1B . К нему подключены три Western Digital WD30EZRX и два Segate ST3000DM001 . Все диски 3TB (фактически одинаковое количество секторов). Нет расширителей портов в использовании.

HBA, дисковые лотки и 4 диска являются новыми. Один из WD30EZRX был в течение нескольких месяцев, не было никаких проблем с ним. Если бы он был подключен к встроенному контроллеру Intel SATA ранее, переместил его в отсеки для дисков с этой новой настройкой.

Были проблемы с HBA, которые требовали частого сброса и получения действительно ужасной производительности. Обновил микропрограмму / BIOS до «Phase 12», последней версии, доступной от Supermicro, и изменил тип на IT (т. Е. Passthrough, от IR для интегрированного рейда, так как я собирался использовать все программное обеспечение raid): 2008IT12.FW. Это обновление прояснило все ранние проблемы, и я не начал получать вышеуказанные сообщения позже (см. Ниже).

Все первые четыре диска, которые я добавил, находятся на первом порту SFF-8087 (разделены на 4 кабеля SATA). Последний диск, который я добавил, находится на другом порту, если это имеет значение.

Единственный другой диск в системе содержит ОС, и это более старый твердотельный накопитель Intel 80 ГБ, подключенный к встроенному контроллеру SATA.

Програмное обеспечение

Ubuntu 11.10 (oneiric). Linux 3.0.0-14-сервер x86_64. Использование драйвера mpt2sas, поставляемого с ОС.

Попытка построить массив RAID6 с использованием Linux md с этими пятью дисками. Начал с вырожденного массива из 3 дисков, двух Segates и одного из новых дисков WD. Это было быстро и прошло очень хорошо, никаких сообщений в логах после того, как я сделал обновление прошивки. Между тем, я все еще использую старый диск WD на порту 0 того же контроллера.

Добавлен другой новый диск WD в массив. Началось восстановление, и теперь я периодически получаю эти сообщения в системном журнале. Я не уверен, сколько времени потребуется, чтобы добавить диск в массив, но расчетное время (cat / proc / mdstat) колеблется от тысяч до десятков тысяч минут, намного дольше, чем это заняло первые 3 диска. Я понимаю, что диски WD намного медленнее; У меня были разные модели, чтобы уменьшить вероятность множественного отказа диска, и это были две самые дешевые модели по 3 ТБ.

Примечания

SMART не сообщает о проблемах на дисках. На всех дисках нет зарегистрированных ошибок, и ни одна из статистических данных об ошибках не приближается к порогу.

Зарегистрированные сообщения начали появляться только после того, как я добавил последний диск, что говорит о том, что у кого-то может быть проблема, но я больше ничего не указываю на это.

Я нашел заголовочный файл, который, кажется, соответствует сообщениям журнала от этого драйвера. Первое сообщение, кажется, прерывается (код 12) для «подкода» 0303, которого нет в списке. Второе сообщение - это сброс (код 11) по причине, которая также не ясна. Если бы я мог определить, что означают 0303 и 0d01, это было бы очень полезно.

Я знаю, что 4 диска в 5-ти дисковом RAID6 - это неполный массив. Я планирую скопировать содержимое старого диска в массив после завершения интеграции 4-го диска, а затем добавить старый диск в массив.

— Крис Смит
источник

5

Скорее всего, ваш лучший выбор - аппаратная проблема где-то между вашими дисками и вплоть до вашего контроллера sas raid. Я рекомендую попробовать:

Запустите любые диагностические инструменты от поставщика (ов), если они доступны
Проверить / переустановить / заменить кабели
удалите аппаратные компоненты и поменяйте аппаратное обеспечение в цепочке, соединяющей диски с вашим raid-контроллером, включая сам контроллер (т. е. для вас, попробуйте что-то еще, кроме встроенного raid на материнской плате).

У меня был один из двух идентичных Dell PowerEdge R515, выдающих очень похожие сообщения (журналы периодически заполняются сообщениями mpt2sas0, хотя точных числовых кодов у меня нет). Собственная загрузочная диагностика Dell восприняла их как «аппаратные ошибки», и замена объединительной платы RAID sas решила проблему.

Когда я занимался расследованиями, я не мог найти исчерпывающий ресурс о том, что означают различные коды ошибок mpt2sas0. Я подозреваю, что они могут даже зависеть от поставщика оборудования (кто-то, кто знает больше о SAS, должен подтвердить или опровергнуть это). Таким образом, ваши коды ошибок могут означать что-то совершенно другое, но если SMART чист, трудно представить другие веские причины для mpt2sas0 сообщать о кодах ошибок.

Эти ошибки могут быть очень серьезными. Мой R515 работал нормально с этими сообщениями в течение недели с 12-дисковым программным обеспечением Ubuntu Linux raid 6, но затем внезапно выбил все 12 дисков из массива как поврежденные (!)

Также в моем случае SMART для всех дисков были полностью чистыми. Хорошей проверкой является интеллектуальная самодиагностика smartctl -t long /dev/sdX, а затем проверка результатов через день с smartctl -l selftest /dev/sdX. Если все в порядке, тест должен сказать, Completedи LBA_first_errстолбец должен быть пустым.

— Рикард Армиенто
источник

Примечание: RAID-контроллер (действительно HBA) - это уже отдельная карта. Встроенный контроллер SATA работает нормально. У меня есть запасной кабель SFF-8087 под заказ, он должен быть здесь к завтрашнему дню. Это мой главный подозреваемый на данный момент.

— Крис Смит

Плохой кабель был проблемой! Я заменил их оба (два порта SFF) на несколько кабелей более высокого качества, и с тех пор у меня не возникло никаких проблем! Я принимаю ваш ответ, так как он самый длинный и предлагает плохой кабель. PS Я определенно делал длинные SMART-тесты; нет проблем ни на одном из дисков.

— Крис Смит

Приятно слышать, что вы нашли проблему. Спасибо за согласие.

— Рикард Армиенто

Для меня действительно странно, что я сталкиваюсь с этой проблемой раньше, также на случай платформы Dell PowerEdge. Тот же самый результат был с кабелями ...

— Мазерит

3

Вау, крутой.

Это , кажется, указывает , что 0x31120303 является сброс шины из - за одного из устройств , находящихся под большой нагрузкой. Это также говорит, что вам не нужно беспокоиться об этом. (Ха-ха, да, верно.)

Это означает, что эти сообщения журнала происходят, потому что одному из ваших устройств требуется слишком много времени для ответа на команды. Эта говорит то же самое, а также указывает, что это происходит под большой нагрузкой.

Хотя это не полный ответ, надеюсь, он укажет вам полезное направление.

— Майкл Хэмптон
источник

Я видел некоторые из этих сообщений, но так и не смог найти точное сообщение. Оказалось, плохой SFF-8087-> SATA кабель. Спасибо за помощь!

— Крис Смит

0

Это означает, что у вас есть какая-то ошибка на диске, это диск SATA в контроллере SAS от LSI, и из-за ошибки все невыполненные запросы были прерваны.

В большинстве случаев на диске возникает средняя ошибка, которая является причиной этой ошибки. Эта ошибка сама по себе не означает среднюю ошибку, и вам нужно проверить журналы на наличие других подсказок, чтобы найти причину сбоя исходного диска.

Чуть более детальная версия по адресу: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Барух Эвен
источник

Интересный пост, спасибо за обмен! SATA - дерьмовый протокол, но диски дешевы и делают то, что мне нужно. Сообщение не появилось, так как я заменил неисправный кабель.

— Крис Смит

1

Дополнительную расшифровку LSI Loginfo можно найти с помощью утилиты, которую я создал для ее расшифровки: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Even