Как восстановиться после сбоя диска в конфигурации RAID 5?


15

Сегодня утром произошел сбой диска на нашем сервере базы данных. Массив дисков (3 диска) настроен в конфигурации RAID 5.

Пока мы ждем замены диска, мы готовимся к стратегии восстановления. Пользователи продолжают работать в системе, хотя и очень медленно (не знаю почему ??).

Как установить новый диск - будут ли данные для этого диска автоматически восстановлены из паритета или есть другой процесс, которому мы должны следовать?

Редактировать: это аппаратный контроллер RAID. (Спасибо за ответы, оценил)


4
Кстати, время, чтобы решить, что делать, если диск выходит из строя на критическом сервере, - до того, как диск выходит из строя на критическом сервере.
Дэвид Шварц

Ответы:


15

Система работает очень медленно, потому что она должна восстановить недостающие данные, что требует дополнительного процессора и ввода-вывода.

Если у вас отсутствует диск в конфигурации RAID-5, у вас нет стратегии восстановления . Если другой диск выйдет из строя, вы потеряете ваши данные . Бегите, не ходите, к ближайшему поставщику, у которого вы можете получить совместимую деталь, на которую распространяется гарантия производителя, отправленная срочным курьером в тот же день. Если поставщик, у которого вы купили массив, уже получает деталь, достаньте обе части и оставьте другую как запасную.

Если у вас есть RAID-5, используемый для производственной системы, вам следует рассмотреть возможность оставить запасной диск в массиве в качестве «горячего» резерва.

Добавлено: если ваши журналы не находятся на отдельном томе (физически отдельные диски), переместите их на отдельный набор дисков, даже просто в одну зеркальную пару. Это также приведет к выигрышу в производительности, если ваша база данных будет иметь значительную нагрузку, так как конфликт на томах журналов оказывает непропорционально плохое влияние на производительность.

Если это возможно, вы также можете сделать вашу базу данных более надежной, выполнив следующие действия:

  1. Завершите работу базы данных.
  2. Резервное копирование базы данных.
  3. Переместите журналы на физически отдельный набор дисков (убедитесь, что вы перенастроили базу данных, чтобы она знала, куда были перемещены журналы).
  4. Перезапустите базу данных и приложение.

Если у вас есть журналы на отдельном томе, вы можете восстановить и выполнить откат из резервной копии тогда и только тогда, когда сбой диска не скомпрометирует журналы. Журналы базы данных должны быть на отдельном томе диска по (среди прочего) следующим причинам:

  • Шаблоны использования журналов являются преимущественно последовательными, добавляя записи журнала в конец файла (файл фактически является кольцевым буфером). Это означает, что большое количество записей в журнале может быть записано быстро, так как при поиске на диске мало активности.

  • Если они совместно используют физические диски с большой рабочей нагрузкой произвольного доступа (например, транзакционные таблицы и индексы), они будут непропорционально замедлены, поскольку операция поиска заголовка нарушает последовательные записи.

  • Наличие журналов на отдельном томе - это почти всегда выигрыш в производительности, и для поддержки достаточно большой рабочей нагрузки требуется только одна зеркальная пара для журналов. Это означает, что аппаратное обеспечение сделать это довольно дешево, поэтому есть небольшая цена за большую производительность и выигрыш в надежности.

  • Если ваш массив данных выходит из строя, журналы не теряются. Если у вас есть правильная стратегия резервного копирования, вы можете восстановить ее из журналов. Это означает, что весь массив может опуститься на сервер без единой точки отказа. И журналы, и массивы данных должны выходить из строя одновременно, чтобы вызвать потерю данных.


Спасибо за ответ, особенно объясняющий, почему система работает медленно.
Филипп Фур

Пятно на. Я бы даже предложил выключить его, пока вы не установите этот сменный диск на место. Как говорит Найджел, у вас нет стратегии восстановления. Потерять другой диск, потерять все это.
Стю Томпсон

Привет Найджел, спасибо, что нашли время и поделились своим опытом. Это действительно отличный совет. Я сообщу позже о результатах восстановления.
Филипп Фур

5

1) Резервное копирование.

В настоящее время данные не были потеряны. Если ваши резервные копии не обновлены сейчас.

2) Прочтите руководство, позвоните продавцу и т. Д.

Различные RAID-системы имеют разные шаги для замены диска, и если вы ошибетесь, вы рискуете уничтожить весь массив. Не зная, какое у вас оборудование / программное обеспечение RAID, мы можем только догадываться о необходимых шагах.

Кроме того, низкая производительность объясняется тем, что RAID 5 в ухудшенном состоянии (то есть: один диск не работает) имеет ужасную производительность чтения. Насколько ужасно, зависит от того, как хранится информация о четности и какой диск умер, но «хорошая» новость - низкая производительность, когда один диск ушел, - это известная проблема, а не причина для паники.


4

Сначала я прочитал бы руководство для используемого вами аппаратного / программного обеспечения - раздел восстановления после сбоев :)

Должен быть простой вопрос замены диска и восстановления массива.

Наиболее важным моментом в таких случаях является то, что диск следует заменить как можно скорее, поскольку в случае отказа другого диска вы, вероятно, потеряете данные. Также вам следует устранить причину сбоя - это потому, что диск стареет? Вы должны заменить другие тоже? Или это было из-за скачка напряжения, тепла или вибрации?


1
возможно потерять данные? Наиболее точно потерять все данные в массиве! Иди в тюрьму, не проходи иди. (резервные копии в стороне, конечно.)
Стю Томпсон

1

Насколько я понимаю RAID5, когда вы заменяете неисправный диск, он автоматически восстанавливается из информации, хранящейся на двух других. Возможность «горячей замены» нового диска на месте зависит от вашей системы - возможно, вам придется сначала отключить питание. В любом случае, учитывая относительно низкую стоимость дисков и важность ваших данных (что отражено в вашем решении использовать RAID5 в первую очередь), вам действительно нужно иметь запасной диск в ящике, готовый к такой ситуации. ,

Недавно я собрал новый компьютер для разработки и настроил основные диски данных под RAID5. Я заказал еще один диск, чем необходимо, так что у меня есть запасной, готовый к этому аварийному моменту (что, я надеюсь, не произойдет)

Теперь, когда вы задали вопрос, я полагаю, мне лучше прочитать эту тему еще немного.


Для небольших объемов данных зеркальная пара лучше, так как обычно она имеет лучшую скорость последовательного доступа, чем маленький RAID-5. Если вы хотите выполнить горячую замену, посмотрите на некоторые из систем с горячей заменой, например, на scsi4me.com
ConcernedOfTunbridgeWells,

0

Полностью зависит от системы. Что говорится в руководствах? Полностью ли ваше оборудование поддерживает горячее подключение новых дисков от контроллера к отсеку? У вас есть последние резервные копии?


0

Сообщение NXC хорошо подводит итог. На случай, если вы не замените неисправный диск до того, как произойдет сбой второго, есть все еще хороший шанс восстановить почти все (иногда все) с помощью специализированной службы восстановления. Данные все еще находятся на дисках, и неисправный диск обычно можно вернуть к жизни в специализированной лаборатории с соответствующим оборудованием. Однако цена на эту услугу довольно высокая. Наличие запасного диска и надлежащих резервных копий (согласно предложению NXC) - это определенно путь в будущем.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.