Ищете фактический опыт сбоя диска RAID 5 2? [закрыто]


15

Мне интересно, есть ли у кого-нибудь личный опыт сбоя диска RAID 5 2 на больших дисках?

Насколько я понимаю, теория заключается в том, что на больших дисках объемом 1-2 ТБ, если один диск выходит из строя в наборе raid, ему необходимо все перестроить, поэтому он очень сильно бьет по всем остальным дискам, и вероятность другого сбоя возрастает, особенно если бы диски были из одной партии производства. И если вы потеряете другой диск, вы потеряете все данные.

Обычно это объясняется после утверждения «RAID не является резервной копией», с которым я согласен.

Теория этого имеет смысл, и я понимаю, но так ли это на самом деле?


К сожалению, мы только что получили новый вопрос с живым опытом этого. :( superuser.com/questions/516844/…
Hennes

Ответы:


15

Да, со мной это случилось. Набор из 4 (потребительских) накопителей WD 500 вышел из строя в течение недели. Я не спешил заменять первый, не переводил массив в автономный режим и терял все свои данные при сбое второго. Я повторно использовал оставшиеся два хороших, и один из них потерпел неудачу в течение следующего месяца. Все они были должным образом охлаждены и заботились. Я могу только сказать, что теперь я верю риторике "плохой партии".

В отдельном инциденте у меня было 3 отдельных привода разных марок, и модели выходили из строя в течение месяца друг от друга, хотя я совершенно уверен, что причина их отказа - неправильная вентиляция. Не готовьте свои диски!


3
Как следствие, имейте запасное сидение вокруг, когда двигатель действительно портится. Кроме того, остерегайтесь тихого повреждения ... легко потерять данные на диске, который только притворяется, что работает.
Пол Макмиллан

Это еще одна причина, по которой вам не следует устанавливать диски, которые принадлежат к одному и тому же пакету, в массиве RAID - у них коррелированные периоды отказов (как, например, ставки по умолчанию траншевых ипотечных ценных бумаг с субстандартным обеспечением).
Эндрю Мао

4

Это на самом деле произошло со мной, хотя на самом деле это был не самый распространенный способ отказа диска. В raid 5 у меня было 4 500 ГБ внешних дисков sata. Они были подключены к дешевому старому серверу IBM, смонтированному в стойке. Вся установка была спрятана под лестницей и однажды, либо крыса, либо кролик, но что-то разжевало некоторые кабели питания, и два привода были замкнуты. Все диски были в дешевых внешних корпусах, поэтому я не должен был удивляться.


3

Вы спрашиваете, можете ли вы потерять 2 диска подряд? Конечно, все может случиться. Raid 5 позволяет значительно увеличить доступность и производительность для доступа к данным, но raid 5 ничего не делает для резервного копирования. Это просто помогает предотвратить использование ваших данных из-за потери оборудования одного диска. Это не копия ваших данных. Вы не можете восстановить старую копию, старую ревизию или просто копию вашей текущей работы. Кроме того, не защищает от повреждения данных. Есть больше вещей, которые могут пойти не так, как просто потеря двигателя. Вирус может испортить все ваши данные, младшая сестра любит смотреть, как мусорная корзина на вашем рабочем столе становится полной и пустой, когда она бросает в нее файлы, глупый друг бросает газировку на ваш компьютер и т. Д.

Кроме того, помните, вы можете потерять контроллер рейда жесткого диска. И вы не можете просто переместить массив в другой случайный контроллер. Вы обычно должны использовать точно такой же, и все же, что-то может пойти не так. Некоторые контроллеры рейда хранят информацию на борту, а другие отправляют информацию о конфигурации в прикрепленный массив. Это азартная игра, когда возникает такая ситуация.

Тот же вопрос в SF: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

Нужно больше причин?

РЕДАКТИРОВАТЬ: Ваша идея верна и может случиться с кем угодно. Лично я не видел более одного отказа диска, но я видел, как некоторые умирают очень близко друг к другу. Никто из них не был в этом окне восстановления, но это технический риск. Но у вас есть резервная копия на случай, если что-то случится, верно? ха-ха. Некоторые люди учатся на этом сложном пути иногда. Raid 6 выводит его на следующий уровень с двойной четностью и может потерять до 2 дисков. При любой настройке рейда вероятность сбоя возрастает с увеличением размера (количества дисков) и сложности массива. Больше дисков = больше точек возможного отказа


извини, я все это понимаю, просто спрашиваю, случилось ли это с кем-нибудь и каков был сценарий?
Брайан

3

Вы правы, в сценарии RAID-5, если вы потеряете один диск, а затем восстановите систему, система должна успешно прочитать каждый сектор всех выживших дисков в наборе RAID. NetApp утверждает, что в некоторых ситуациях (они могут использовать RAID-наборы из 28 дисков разных типов) ваши шансы на повторный сбой могут быть до одного из десяти. Таким образом, они выполняют «Dual-Parity», который, я считаю, связан с RAID-6.

Очевидно, что чем больше дисков у вас в наборе RAID, и чем они больше, тем больше вероятность возникновения проблемы. Для небольшого набора RAID (3-5 дисков) шансы, вероятно, не слишком сильно изменились по сравнению с использованием RAID-5.

Но я всегда делаю Raid-DP в NetApps, где могу.


+1 Я никогда не задумывался о факте «должен успешно прочитать каждый сектор всех выживших дисков».
AaronLS

2

Никакого личного опыта, но я слушал крики тех, кто с ними случился. Любая система хранения данных - будь то отдельный диск, USB-накопитель, магнитная лента, огромная установка RAID или Amazon S3 - в конечном итоге выйдет из строя любым удобным для вас способом. Второй сбой при восстановлении набора RAID 5 - это только один из способов, которым это может произойти.

Кроме того, поддержка RAID с тройным контролем четности была интегрирована в OpenSolaris пару дней назад, поэтому, по крайней мере, один поставщик считает, что учет двух дополнительных сбоев во время перестроения RAID с контролем четности стоит инженерных усилий.


1

Это действительно происходит на самом деле. Вот почему решения NetApp для хранения данных имеют реализацию RAID 6. Это на тот случай, если вы потеряете второй диск во время восстановления.

Вы можете рассчитать вероятность сбоя, используя стандартные формулы, перечисленные на следующем тексте ссылки на странице. При масштабировании все большего и большего количества дисков с данными вероятность только такого сбоя возрастает. Если у вас достаточно дисков, вы можете поместить это число в зону беспокойства, если вы используете RAID 5 с огромным количеством томов данных.

По личному опыту могу сказать, что у вас наверняка могут быть два отказа дисков в одном массиве в течение одного критического периода времени. Raid 6 избавил меня от необходимости восстанавливать из резервной копии.

Надеюсь это поможет


1

Вот сценарий: на вашем RAID5-массиве произошел сбой диска, но ваш запасной уже находился или сидел без дела, или наконец-то поступил заказ на новый жесткий диск. Вы (или, возможно, какой-нибудь удаленный миньон) идете с новым диском в руке, чтобы заменить неисправный. Из-за плохой маркировки, усталости или просто глупости один из оставшихся хороших дисков извлекается вместо неисправного ... и вот ваш второй сбой.


1

Я видел это несколько раз, когда занимаюсь восстановлением данных. И да, они часто терпят неудачу в одно и то же время, однако я не верю, что это имеет какое-либо отношение к тому моменту, когда они были собраны обязательно, поскольку я также видел, что это происходит с несовпадающими дисками. Чаще всего этот тип отказа происходит вскоре после грозы, скачка напряжения или отключения питания.

Обычно скачок приводит к повреждению дисков или контроллера RAID, и в течение нескольких дней они начинают выходить из строя. На самом деле я сейчас работаю над восстановлением массива, в котором два диска перестали работать после сбоя питания. (сейчас выглядит безнадежно)

Небольшой совет: сетевые фильтры не защищают ваше оборудование. Всегда подключайте ваш рейд 5 к хорошему ИБП. Я никогда не видел, чтобы это случилось, когда массив был на ИБП.


1

Случайное извлечение второго хорошего диска из набора с одним контролем четности не должно разрушать массив с хорошей реализацией RAID. Я знаю, что ZFS RAID-Z просто замораживает любые операции ввода-вывода в массиве, пока вы не подключите его снова.


0

Другой сценарий: удаленному миньону приказывают извлечь резервную ленту из магнитофона. Она идет к стойке и не вытаскивает ленту из накопителя на магнитной ленте ... но 2 (два) жестких диска из дисковых отсеков одновременно и вуаля: 2 отказа диска.

Ты думаешь это надумано? Что ж, я сейчас нахожусь у клиента, который сделал именно это, а теперь смотрит на перестройку сервера.

Удачи, она не сожгла ленту, которая была на самом деле в тапе или еще где-то ;-)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.