Когда RAID стоит проблем?


14

В нашем магазине мы добросовестно используем RAID на всех наших рабочих станциях, вероятно, просто потому, что, похоже, именно так и должно быть. Я говорю о рабочих станциях для научного моделирования, использующих встроенные чипы RAID.

Но я слышал много страшных историй о RAID. У самого Stackoverflow произошел сбой, вызванный косвенно контроллером RAID .

RAID защищает вас от очень узкого типа сбоев - физического отказа диска - но в то же время он также создает дополнительные точки отказа. Могут быть проблемы с контроллером RAID, и часто они есть. В нашем магазине, по крайней мере, кажется, что RAID-контроллеры выходят из строя, по крайней мере, так же часто, как и сами диски. Вы также можете легко что-то испортить с процессом замены неисправного диска.

Когда RAID стоит проблем? Разве вы не получаете более высокую окупаемость инвестиций за счет увеличения избыточности ваших решений для резервного копирования? Какой тип RAID лучше или хуже в этом отношении?

Изменить: я изменил название с оригинального «RAID стоит проблем?», Так что это звучит менее негативно


3
Когда вы говорите об использовании RAID на рабочих станциях, мне интересно, что вы подразумеваете под RAID. RAID, который поставляется как часть чипсета материнской платы настольного класса, на самом деле не является RAID. Реальный RAID - это дорогой (несколько сотен, может быть, тысяч долларов) вариант, обычно реализуемый как карта PCI определенного типа. Подумайте, Adaptec или LSI, а не Promise.
Джейсон Тан

1
Вы правы, мы используем некоторые встроенные чипсеты. Так что, возможно, мой вопрос следует немного изменить: стоит ли дешевый RAID?
Амариллион

Ответы:


17

Не волнуйтесь, RAID не используется во всем мире бизнеса из-за группового мышления! Вероятность сбоя приличных контроллеров RAID намного, намного ниже, чем вероятность отказа диска. Я не помню, чтобы когда-либо видел сбой RAID-контроллера в реальной жизни, хотя я видел, как умирало много дисков, как в офисе, так и в центре обработки данных.

PS: я вижу ваши теги. RAID не резервный! :)


1
Да, это не резервная копия. Так тогда это избыточность? Так что на самом деле все о высоких темпах роста? Если вам не нужно пять девяток, вам не нужен RAID?
Амариллион

6
Нет, это о доступности. Снять машину, когда вы хотите, это нормально. Наличие одного жесткого диска решит снять вашу машину, это не так. Правильное использование RAID предотвращает это.
Мэтт Симмонс

9
@amarillion. Вау, это опасное чувство. Какой у вас опыт работы с жесткими дисками? RAID в значительной степени требуется даже для надежности двух девяток (тем более, чем больше жестких дисков в миксе), и один только RAID определенно не даст вам пять девяток, для этого вам понадобятся как минимум избыточные центры данных. Даже тогда это грандиозный удар, 5 девяток - это фантастическая земля управления BS, это меньше часа простоя за десятилетие (~ 5 мин / год). Даже IP-магистрали этого не имеют.
Клин

4
@amarillion: у некоторых из моих клиентов есть разработчики, которые выставляют счета по 200 долларов в час. Или рабочие, реагирующие на жизненные или смертельные ситуации. Нарушать тех рабочих из-за отсутствия жесткого диска за 80 $ кажется мне глупым, YMMV.
duffbeer703

3
Нет. RAID защищает вас от сбоя жесткого диска. Он не защищает вас от 'rm -rf /'. Вот для чего нужны резервные копии!
Алекс Дж

9

ZFS от SUN (также часть OpenSolaris; Apples OSX - в настоящее время только для чтения) не только выполняет рейд с различными уровнями, но и всегда проверяет, действительно ли данные, записанные на диск, присутствуют. последовательность является ключевым! RAID бесполезен, если вы не можете полагаться на его целостность . Выберите подходящий RAID-контроллер (я предпочитаю HP) и почистите RAID-массив, чтобы периодически обнаруживать ошибки.

Softwareraid (как ZFS), с другой стороны, раздражает вас более независимым от аппаратного обеспечения, если RAID-контроллер умирает, и вы не можете получить точную замену.


8

Всегда. Диски дешевые, вашей информации нет. Но используйте программный RAID, чтобы у вас была возможность двигаться дальше или менять оборудование позже (поверьте, оно вам понадобится). А также используйте файловую систему контрольной суммы, такую ​​как ZFS, для защиты от тихого повреждения данных (что очень вероятно в настоящее время для больших дисков).


8

Для тех из вас, кто говорит, что вы не будете использовать аппаратный RAID, потому что, если контроллер выходит из строя и вы не можете получить замену, которую вы испортили, вы поступите неправильно.

  1. Если для вас важно время безотказной работы, вам НЕ следует покупать дешевое оборудование. Как было сказано ранее, используйте хороший рейд-контроллер, HP, LSI, Dell и т. Д.

  2. Если контроллер был приобретен у производителя компьютера, то есть сервера Dell, с RAID-контроллером Dell, корпорация Dell сообщит вам, как долго они будут хранить эти детали, обычно в течение 4 лет с момента EOL этого сервера.

  3. Если кто-то снова запускает быстро и означает, что вы не можете ждать доставки, тогда вам следует приобрести второй запасной контроллер для себя, независимо от того, кто его сделал.

  4. Если вы настроили RAID 1, вы можете иногда взять этот диск и перенести его на обычный контроллер для восстановления данных. Если это важно для вас, подтвердите / проверьте это с вашим контроллером, прежде чем вы окажетесь в критической ситуации.

Аппаратный RAID спас мой зад 2 раза. Как только на почтовом сервере вышел из строя один из дисков, я получил уведомление по электронной почте от программного обеспечения для мониторинга рейдов на этом компьютере, вызвал dell и на следующий день получил новый диск, вставил его, и он восстановил все самостоятельно. Ноль времени простоя на этом

Во-вторых, произошел сбой диска на старом файловом сервере, замена которого была запланирована на 6 месяцев. Контроллер продолжал работать, и мы перенесли замену сервера на эту неделю. Спасла покупка нового диска (так как он был вне гарантии) и снова нулевой простой.

Раньше я использовал программные рейды, и они просто не так хороши, как аппаратные. Вы должны проверить свою настройку, программное обеспечение или аппаратное обеспечение, чтобы убедиться, что оно работает, и знать, что делать, когда коричневый материал попадает в вентилятор.


3
Люди склонны рассматривать RAID как вид страхования. Если они не попадают в «несчастный случай», то преимущества RAID (страхования) никогда не кажутся очевидными. Спасибо за то, что поделились своей историей, так как многие люди (я думаю) относятся к RAID с легкостью, потому что, если у них никогда не бывает плохого опыта, зачем инвестировать в то, что может не случиться? Это должен стать уроком для всех, кто читает: надежный аппаратный RAID-контроллер спасет вашу задницу в этом на миллион / миллиард шансов. Не оставляйте это на волю случая; всегда используйте хороший аппаратный RAID-контроллер, особенно для серверов.
osij2is

6

Сбои жесткого диска гораздо чаще происходят на сервере, чем на рабочей станции ...

Вы не можете просто сказать «добавление большего количества точек отказа», не принимая во внимание вероятность этого отказа. Тем более что эти менее вероятные точки отказа специально созданы для того, чтобы снизить вероятность сбоя жесткого диска. Как вы выразились, вы в основном создали ошибку , подобную игре на пари .

Большинство систем RAID на материнских платах для настольных ПК - это дешевые программные / аппаратные гибриды, при этом большая часть работы выполняется в программном драйвере. ИМХО, это куски дерьма, используемые для продажи опытным пользователям.

С другой стороны, хороший фактический аппаратный RAID-массив достаточно надежен, и у него есть аппаратное обеспечение, которое справляется со своей задачей без (несмотря на?) Операционной системы. Но они становятся дорогими, потому что реальное оборудование обычно имеет резервные копии батареи и полный массив XOR для вычисления контрольных сумм и т. Д. Еще дороже, если это делается с использованием SCSI.

Описание: Если вы используете RAID-системы на материнской плате, то нет, это не стоит того.


3
Коллега управляет большой школьной ИТ-средой с 180 000 рабочих станций с первоклассной службой поддержки. 7% настольных компьютеров требуют замены оборудования в течение 5-летнего жизненного цикла, а 85% этих замен - жесткие диски.
duffbeer703

Да, но если рабочая станция выйдет из строя, пользователь просто войдет на другую машину, пока чинит сломанную. С таким количеством рабочих станций их должно быть центральное хранилище файлов. Интересно, как будет выглядеть статистика с 180000 серверов.
Апе-инаго

1
Вы правы для многих обстоятельств - но не для всех. По сценарию моего друга, многие из этих компьютеров находятся за классными комнатами, и если они сломаны, у этого класса нет компьютера, и это немаловажно. На моей работе у нас есть свободные рабочие места, и нам все равно.
duffbeer703

5

Хотя резервные копии и RAID являются решениями различных проблем, большинство «проблем с RAID» очень похоже на наиболее распространенную проблему резервного копирования (т.е. никто не проверяет восстановление) - никто не проверяет восстановление системы. Другие проблемы с RAID часто являются прямым результатом того, что люди не понимают, что он делает и чего не делает. Например, многие люди думают, что RAID гарантирует целостность их данных - это не так.

Для рабочих станций, если вы используете RAID-0 для повышения производительности приложений, связанных с вводом-выводом, или RAID-1/5/6, чтобы ученый работал до 100 долларов в час, когда его жесткий диск за 80 долларов выходит из строя, вы используете RAID должным образом. Просто не путайте избыточность диска с резервным копированием , и протестируйте процедуры, чтобы гарантировать, что ваши ИТ-специалисты справятся с восстановлением.


Хорошая заметка для рабочих станций. Потребности рабочей станции полностью отличаются от потребностей сервера. И решительное да на "..не путайте избыточность диска с резервным копированием".
osij2is

4

Есть два типа RAID

  • Тот, который дешево интегрирован. Это НЕ настоящий рейд, настоящая работа выполняется программным обеспечением (специальный драйвер выполняет вычисления рейда). Вам следует избегать этого.
  • Другой дорогой, но вы получите настоящий рейд. Если вы можете себе это позволить, это стоит денег.

Некоторые операционные системы имеют хорошее программное решение для рейдов (это не имеет ничего общего с хреновыми картами, упомянутыми выше). Linux-рейд особенно хорош, его производительность действительно хорошая.

Рейд может только повысить надежность, это не решение для резервного копирования. Файлы могут быть удалены случайно, неисправный диск может возвращать (и дублировать) неверные данные на другие диски в массиве raid, поэтому реальное решение для резервного копирования все еще необходимо.


4

RAID отлично подходит для безотказной работы, но не заменяет резервное копирование. Как однажды сказал коллега: «Вы знаете тот момент« О, черт! », Когда вы случайно что-то удалили? RAID просто означает, что вы получаете« О, черт! »Более чем один диск одновременно».

Тем не менее, в тот день, когда вы заглядываете в кабинет вашего босса и говорите ей: «Кстати, сервер базы данных вчера вышел из строя жесткого диска - мы никогда не выходили из строя, он закончил восстановление на резервный в 5 часов утра и Я отправил плохой диск по гарантии », - вот тогда RAID - это бесценно.


2

Какова ваша частота отказов на жестких дисках и рейд-контроллерах? Отказ на рейд-контроллере должен быть намного ниже, чем на дисках. Если у вас высокий уровень отказов, вы можете посмотреть на свою среду, например, статические разряды, которые могут вызывать проблемы.

Для рабочих станций вы можете использовать программный рейд, как предложено Alakdae, потому что вам не придется беспокоиться о сохранении запасов точного аппаратного контроллера. Однако вы должны хранить всю важную информацию на своих серверах, которые имеют аппаратный рейд и резервные копии на разных носителях.

Производители серверного оборудования поддерживают raid-контроллеры, поэтому, даже если это старый контроллер, вы все равно можете получить его от них, если потребуется (хотя это будет стоить вам довольно копейки).


2

Кажется, что многие из вышеупомянутых постов забывают первоначальный вопрос и только обсуждают вопрос о RAID 1. Вопрос был: «Когда RAID стоит проблем?» Ну, это зависит ... Если ваши разработчики много читают и записывают данные со своих рабочих станций, то конфигурация RAID 0 стоила бы того. Добавление большего количества дисков в этот RAID 0, конечно, увеличит скорость и производительность, НО увеличит вероятность сбоя (диска или контроллера).

Я работаю в школе медсестер, где развернуто около 500 компьютеров Dell, и почти ни одна из них не использует какой-либо RAID. Мне кажется, что мой тип пользователей не увидит достаточного преимущества, чтобы добавить сложность системы RAID на каждой машине. Я больше беспокоюсь о восстановлении данных и образове дисков, чем о скорости RAID 0 или избыточности RAID 1. Конечно, я не говорю о наших производственных серверах, это другая история. Восстановление данных имеет решающее значение, мы полагаемся на другие методы резервного копирования, чтобы учитывать не только избыточность диска. Любой тип RAID не поможет вам, если пользователь случайно удалит файл.

Поэтому ответить на ваш вопрос ИМХО ... RAID 0 на рабочей станции стоит того, когда пользователю нужна производительность. (Просто убедитесь, что все данные импорта импортированы.) Я уверен, что вы можете проверить пропускную способность данных в существующей установке, чтобы убедиться, что она адекватна. RAID 1 следует использовать в серверной среде, где доступны контроллеры RAID более высокого класса. Это не стоит хлопот на рабочей станции, потому что это усложняет развертывание, создание образа диска и ремонт. Многие из этих рабочих станций поставляются с RAID-контроллерами, встроенными в материнскую плату. Приятно знать, если материнская плата выходит из строя на машине, я всегда могу вставить диск в другую систему для получения данных.


2

Программный RAID для Linux превосходен, и на самом деле он опережает бюджетные аппаратные RAID-массивы. Он также имеет несколько оптимизаций, которые могут быть полезны для рабочей станции. Например, он может читать разные вещи на каждом диске одновременно, эффективно удваивая время чтения произвольного доступа, что является обычным случаем в отличие от операций с ограниченной скоростью передачи, оптимизированных с помощью RAID 0 .

Что касается надежности, это очень хорошо поддерживаемая часть ядра Linux, используемая миллионами, она очень хорошо справляется с аппаратными сбоями, так что это явно выигрыш, если говорить о доступности. Я годами использовал его на своих личных рабочих станциях, а также на нескольких десятках бюджетных серверов, некоторые из которых были довольно загружены и никогда не могли объяснить это какой-либо ошибкой. Тем не менее, я испытал около дюжины сломанных дисков.

(У аппаратных RAID-карт более высокого уровня есть и другие функции, такие как кэш-память с резервным питанием от батареи. Он в основном умножает скорость произвольной синхронизированной записи на диск на десять. Это абсолютно необходимо для баз данных, вероятно, совершенно бесполезно для рабочих станций.)


Я надеюсь, что это удваивает чтение произвольного доступа / скорость /, а не чтение / время / :)
Билл Вайс

1

У меня просто произошел сбой RAID-контроллеров на двух (одинаковых) серверах, так как у нас были эти две машины, у нас не было одного сбоя жесткого диска во всей компании.

Я думаю, что RAID на десктопе - плохая идея, дешевые контроллеры RAID, которые вы собираетесь установить на этих машинах, выйдут из строя задолго до реального жесткого диска.

На серверах, возможно, я больше не буду доверять RAID-контроллерам, убедитесь, что у вас есть запасная машина и хорошие резервные копии.


1

Я разработчик, и все наши рабочие станции используют RAID для внутренних дисков. RAID 0. Это определенно стоит того. Вы никогда не захотите возвращаться к компиляции с одного диска 7200 об / мин после того, как попробовали пару 15000-х.
Мне поставили перед собой задачу: сократить время компиляции с помощью RAID или 15k диска. Я не знаю, для компиляции один быстрый диск может дать точно такую ​​же производительность. Тем не менее, отдельный диск SAS не особенно велик для современного компьютера, поэтому недорогой встроенный RAID-массив все же имеет место. Это и я сомневаюсь, что RAID когда-нибудь повредит производительности системы.
Я думаю, что этот тип RAID, безусловно, подходит для рабочей станции и, вероятно, лучше всего использовать недорогие встроенные контроллеры. Со стороны сервера, большинство наших серверов имеют некоторую форму RAID-массива для диска ОС, и данные затем находятся в отдельном массиве некоторой подходящей формы. Я не знаю о наших производственных серверах, но наши серверы разработки (которых у нас достаточно) никогда не выходили из строя контроллера, хотя у нас были отказы дисков. В одном случае у нас произошел сбой половины массива ОС на блоке SQL, пока он перестраивался, другой диск вышел из строя! Иногда RAID1 просто недостаточно!


1
Я должен позвонить в BS по этому вопросу. RAID 0 бесполезен для рабочей станции разработчика. RAID 0 в лучшем случае удваивает скорость передачи данных; он ничего не делает для произвольного доступа. Угадайте, что делают разработчики ... читайте и пишите множество крошечных файлов, а иногда и больших. Единственной рабочей станцией, которая была бы полезна, была бы графическая карта, выполняющая редактирование видео, где вам нужны все гигабиты, которые вы можете получить.
niXar

Это может быть правдой, я не сравнивал производительность одного 15k диска SAS с двухдисковым рейдом 0. Я обновил свой ответ.
pipTheGeek

1
Это зависит от того, что делают ваши разработчики. У нас есть ребята, которые работают с большими наборами данных, которые замечают значительное улучшение производительности, особенно во время компиляции. Ребята из ГИС тоже замечают улучшения с RAID 0.
duffbeer703

Переход с 7,2 тыс. До 15 тыс. Ед. Означал бы значительное ускорение. Больше
нечего

Конечно, один SSD будет дешевле и быстрее в наши дни?
Дентраси

1

Для ваших научных рабочих станций это может стоить того, ЕСЛИ эти системы работают лучше, если их данные хранятся локально, в отличие от общего ресурса на файловом сервере. Для населения в целом, однако, я бы сказал, нет. Это не стоит хлопот и головной боли, когда все, что вам действительно нужно, это восстановить данные, которые должны храниться в общих папках.


1

RAID полезен только тогда, когда вы абсолютно не можете неожиданно отключить сервер. Мы используем RAID на всех наших серверах в нашем центре обработки данных, где нет какой-либо другой формы избыточности. Например, мы не используем RAID на наших веб-серверах, потому что еще 10 еще работают.

Лакмусовый тест: «Если диск сломается посреди ночи и не может ждать до 9 утра, ему нужен RAID»


Есть другие контексты, в которых это имеет смысл - например, если у вас нет быстрого и простого способа восстановить машину до ее прежнего состояния.
cp.engr

1

RAID стоит того, чтобы иметь контроллер с батарейным питанием.

Для серверных приложений, которые часто используют файлы журналов fdatasync () (что не редкость в базах данных) для обеспечения долговечности, вы будете в конечном итоге писать одни и те же блоки снова и снова. Это снизит производительность ввода-вывода, если у вас нет контроллера с батарейным питанием.

Если у вас действительно есть контроллер с батарейным питанием, многие записи даже не попадут на диски, а просто останутся в памяти, пока они не будут заменены другой записью. Это хорошая вещь.

Избыточность является бонусом, но не обязательна, так как важные вещи должны быть избыточными на системном уровне.


1

Дешевые реализации RAID ужасны.

Ваш выбор в порядке надежности:

1) Серверы HP DL с их аппаратным RAID.
2) 3Ware RAID-карты.
3) ZFS
4) Linux Software Raid

Все остальное вызывает проблемы, и в действительности может привести к снижению общей надежности, чем решение без RAID.

Подумайте, что делать, если ваш контроллер выходит из строя и производитель не работает.

Подумайте, можете ли вы восстановиться после явного отказа двух дисков, вызванного проблемами с питанием / кабелями.

Это два примера из сотен.


1

Для рабочих станций RAID, вероятно, не стоит того, чтобы иметь новую систему, в которой можно восстановить данные ...

Многие говорили о RAID 0 ... этого нет, чтобы помочь доступности. Вы удваиваете шансы сбоя громкости, так как, когда один из дисков умирает, вы теряете все это. RAID 0 - это игра со скоростью доступа к чтению / записи на томе и предоставление большего объема памяти. Единственный способ, которым это может помочь в бизнес-среде, - это взять два RAID 0 и отобразить их как RAID 1.

Как уже указывалось, RAID не является решением для резервного копирования.

RAID тоже не идеален. Я думаю, что этот пост из блога этого парня подводит итог того, как я отношусь к RAID и когда оно того стоит: Думаете о RAID?

На рабочей станции вы должны быть в состоянии заставить одного человека использовать другую систему во время развертывания замены. Зачем использовать RAID? Его или ее данные должны храниться на сервере, где управление, целостность данных и резервные копии централизованы. Рабочая станция должна быть настроена таким образом, чтобы ее можно было периодически обновлять или изменять, если позволяют финансы, а RAID - это просто еще один уровень затрат и головной боли для управления (плюс проблемы с энергопотреблением и нагревом с добавлением дисков и наложением воздушного потока). В большинстве случаев для предприятий, вероятно, гораздо более выгодно поместить деньги с карты RAID в больший диск, и если вы используете встроенный RAID, у вас все равно будут проблемы, поскольку он имеет тенденцию связывать RAID отформатировать в материнскую плату (и в любом случае это не настоящий RAID-массив ... в поиске Google он встречается как "поддельный рейд").


0

Зачем беспокоиться о рабочей станции? Конечно, у вас есть все ваши домашние каталоги и данные хранятся централизованно. Вот где вы хотите использовать рейд.


0

Если вы беспокоитесь о сбое контроллера дисковода, вам также необходимо учитывать сбой сервера - вентиляторы, материнскую плату, ОЗУ, сеть ... и затем вам также необходимо учитывать сбой маршрутизатора, кабели и питание ... и вам также нужно учитывать, что центр обработки данных выходит из строя (наводнение, пожар, ошибка человека), а затем нужно учитывать, что внешняя сеть выходит из строя (обрыв кабелей - все время в некоторых местах!).

Короче говоря, вы можете беспокоиться о времени простоя сайта так сильно, что никогда не потрудитесь разместить что-либо в Интернете! Или вы можете сравнить риск отказа с затратами на избыточность и получить гораздо более реалистичный подход. И из всех вещей , которые я перечислил, жесткий диск единственной наиболее вероятно точка отказа.

То есть рядом с человеческой ошибкой. Кто типа " shutdown -h now", когда они хотели перезагрузить компьютер .... :(


0

Мое большое беспокойство - диски, так как кажется, что вы не можете купить дешевые:

Примечания крупного поставщика:

«Большинство RAID-контроллеров предназначены для тайм-аута данной команды, если диск перестает отвечать на запросы в течение определенного периода времени. В результате накопитель будет отключен или помечен как неисправный, и клиенту будет выдано предупреждение. Диски корпоративного класса (или диски, предназначенные для RAID-сред) имеют ограничение на повторные попытки, прежде чем сектор будет помечен как неисправный. Этот предел повторных попыток позволяет диску реагировать на контроллер RAID в течение ожидаемого периода времени. Хотя настольные накопители могут работать с RAID-контроллером, массив будет постепенно отключаться по мере старения накопителя и может привести к потере данных ».

Это кажется мне безумным, еще одна проблема, которая гарантирует, что производители дисков получат много прибыли от людей, которые «не знают лучше». Тем не менее, я прочитал, что Google разработал технический документ (не могу его найти), который показывает, что нет никакой разницы в надежности дисков между двумя «классами», предлагаемыми поставщиками систем хранения. Я сомневаюсь, что Google использует аппаратные контроллеры рейда в их бежевом флоте коробки все же.

Возможно, у mdadm (в linux raid) есть настройки, которые можно использовать, чтобы справиться с более нетерпеливыми настройками в прошивках настольных накопителей?

Возможно, на самом деле, каждый платит за свою гарантию через отключенный период ожидания в прошивке контроллера?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.