У меня дома работает небольшой сервер Ubuntu с двумя жесткими дисками. На дисках есть два программных рейда (raid1), управляемых mdadm, которые я считаю неактуальными, но упоминать об этом все равно.
Оба жестких диска являются Western Digital и использовались около 2 лет, когда один из них начал издавать щелчки и умер. Я подумал, что, может быть, это естественно через 2 года, поэтому я купил новый и повторно сделал рейдовые массивы. Примерно через месяц другой диск тоже умер.
У меня не возникло подозрений, поскольку оба диска были куплены одновременно, не удивительно, что они оба рядом, поэтому я купил другой.
Пока что 2 старых диска вышли из строя, а 2 совершенно новых в системе. Через месяц один из новых дисков умер. Это когда это начало становиться подозрительным. Поскольку ПК был собран из действительно старых деталей (например, AthlonXP), я решил, что, возможно, виноват SATA-контроллер материнской платы. Конечно, вы не можете легко переключать детали на старом ПК, как это, поэтому я купил целую систему, новый МБ, новый ЦП, новый ОЗУ. Забрал только что вышедший из строя диск, так как он был на гарантии, и получил его на замену.
Таким образом, это до 2 неисправных дисков от старых, и 1 отказавший диск от новых. Без проблем, на 1 месяц. После этого ошибки снова появлялись в / var / log / messages, и mdadm сообщал о сбоях raid-массивов. Я начал рвать на себе волосы. Все новое в системе, до третьего абсолютно нового жесткого диска, просто невозможно, чтобы все новые диски, которые я купил, были неисправны.
Давайте посмотрим, что еще распространено ... кабели. Хорошо, в общем, давайте заменим кабели SATA. Возьми жесткий диск обратно, улыбнись парню за стойкой и скажи, что мне действительно не повезло. Он заменяет жесткий диск. Я прихожу домой, проходит один месяц и снова выходит из строя один из жестких дисков. Я не шучу.
Два совершенно новых жестких диска вышли из строя. Может быть, это ошибка в ОС. Давайте посмотрим, что говорит инструмент тестирования производителя. Загрузите инструмент тестирования, запишите его на компакт-диск, перезагрузите компьютер, оставьте тестирование жесткого диска на ночь. Тест говорит, что диск неисправен, и я должен сделать резервную копию всего, если я все еще могу. Я не знаю, что происходит, но это не похоже на проблему с программным обеспечением, что-то определенно бьет по жестким дискам.
Я должен упомянуть сейчас, что вся система находится в обувной коробке. Так как существует множество вещей «создай свой собственный случай с ikea», я подумал, что не должно быть никаких проблем, если выбросить вещь в коробку и куда-нибудь ее спрятать. Коробка хорошо проветривается, но я подумал, что, может быть, диски перегревались. Нет другого возможного ответа на это. Поэтому я взял жесткий диск обратно, заменил его (в третий раз) и купил кулеры для жесткого диска.
И только сейчас я услышал звук обреченности. нажмите нажмите whizzzzzzzzz . SSH в поле:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
вывод dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Резюме:
- Нет возможности перегрева
- 6 дисков вышли из строя, 4 из них были совершенно новыми. Я не уверен, что первые два были неисправны или перенесли то же самое, что и новые.
- В системе нет ничего общего, кроме ОС, которая сейчас называется Ubuntu Karmic (началась с Jaunty). Новый MB, новый процессор, новая RAM, новые кабели SATA.
- Нет, маленькие отверстия на жестком диске не закрыты
Я плачу. В самом деле. У меня нет лица, чтобы вернуться в магазин сейчас, 4 диска не могут выйти из строя менее чем за 4 месяца.
Несколько идей, над которыми я размышлял: возможно ли, что я что-то напутал, когда разделил и заново синхронизировал диски? Может ли это быть настолько плохо, что это физически разрушает диск? (поскольку предоставленный поставщиком инструмент сообщает, что диск поврежден), я делаю разбиение с помощью fdisk и использую тот же размер блока для разделов raid1 (я проверяю точные размеры блоков с помощью fdisk -lu)
Возможно ли, что ядро Linux или mdadm, или что-то не совместимое с жесткими дисками этой конкретной марки, и их молотит?
Возможно ли, что это может быть обувная коробка? Попробуйте разместить его где-нибудь еще? Сейчас он под полкой, поэтому влажность тоже не проблема. Возможно ли, что нормальный корпус ПК решит мою проблему (я собираюсь застрелить себя тогда)? Я получу картину завтра.
Я просто проклят?
Любая помощь или предположение с благодарностью.
Редактировать : удлинитель защищен от перенапряжения.
Edit2 : я переехал между этими 4 месяцами, так что вероятность того, что причиной является "грязное" электричество в обоих местах, очень мала.
Edit3 : я проверил напряжения в BIOS (не мог заимствовать мультиметр), и они все кажутся правильными, самое большое расхождение в 12V, потому что он поставляет 11,3. Должен ли я беспокоиться об этом?
Edit4 : я поместил блок питания моего настольного компьютера в сервер. BIOS сообщил о гораздо более точных показаниях напряжения, а также успешно восстановил массив raid1, что заняло около 3-4 часов, поэтому я чувствую себя немного уверенно. Завтра получим новый блок питания для тестирования. Также, прикрепив картинку о коробке: (не обращая внимания на 3-й диск)