Возможен ли ceph для обработки аппаратных RAID-массивов (LUN) в качестве дисков OSD?


8

Я довольно новичок в ceph и пытаюсь выяснить, поддерживает ли ceph HBA на аппаратном уровне.

К сожалению, не смог найти никакой информации. Я обнаружил, что для OSD рекомендуется использовать простые диски. Но это выдвигает требования к PCIe, интерфейсам диска к высокой пропускной способности, а требования к ЦП очень высоки. Аппаратные RAID-контроллеры уже решили эти требования, и они обеспечивают высокую избыточность в зависимости от настроек, не используя мой PCIe, CPU или любые другие ресурсы.

Поэтому я бы хотел, чтобы у меня был локальный RAID-контроллер (и), который обрабатывал бы избыточность моего диска на уровне контроллера (Raid 5, raid 6) независимо от того, какой уровень RAID мне нужен. Вдобавок к тому, что RAID LUN, я хотел бы использовать ceph для более высокого уровня репликации между: хостом, шасси, стойкой, строкой, центром обработки данных или любым другим возможным или планируемым в CRUSH

Есть опыт в этой настройке?

Это рекомендуемая установка?

Есть какая-нибудь глубокая документация для этой аппаратной интеграции RAID?

Ответы:


7

Вы можете не значит, что вы должны. Возможно преобразование логических модулей RAID в Ceph, но вы добавляете один дополнительный уровень абстракции и вид, по крайней мере, часть ненужной функциональности Ceph.

Подобная тема в их списке рассылки:

http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/021159.html


1
не могли бы вы подробнее рассказать о том, как «сделать хотя бы часть функциональности Ceph бесполезной»? Не поймите суть
cilap

1
Вся идея Сефа ... Хорошо, одна из главных идей! Избегать управления «островками хранения», которые являются RAID LUN.
BaronSamedi1958

0

Но это выдвигает требования к PCIe, интерфейсам диска к высокой пропускной способности, а требования к ЦП очень высоки.

Не совсем, многие рабочие нагрузки хранения хорошо обслуживаются современными процессорами общего назначения и межсоединениями.

Да, контроллер RAID заботится о резервировании с помощью нескольких дисков в одном корпусе. Но это стоит затрат и сложностей, когда вы используете уже избыточные многоузловые решения распределенного хранения, такие как Ceph. Зачем зеркалировать физический диск, если у Ceph уже есть несколько его копий?

Строительные блоки такого решения - просто связка дисков. Такие как Open Vute Storage Compute Storage . 30 шпинделей в корпусе, прикрепленном к вычислительному узлу, возможно, из пары десятков ядер ЦП. Добавьте столько узлов, сколько вам нужно для масштабирования. Вы можете оставить эти вычисления выделенными для Ceph, если хотите максимизировать пропускную способность.


Есть ли у вас факты с реальными тестами производительности процессора, памяти и диска по сравнению с тестами аппаратного RAID? С аппаратными RAID-массивами у меня низкие требования к процессору и памяти, так как об этом заботится аппаратный контроллер.
до

Я не. И вы действительно хотели бы сделать свой собственный тест в любом случае. Просто отметьте, что процессоры выполняют миллиарды циклов в секунду, а межсоединения (PCIe) выполняют миллиарды передач в секунду. Вы можете свободно использовать RAID-контроллер, это просто не нужно в распределенном узле хранения.
Джон Маховальд

-1

Рекомендуемая настройка - использовать отдельные диски или, в конце концов, диски в парах RAID-1.

Один контроллер SAS (или контроллер RAID в режиме JBOD) может без проблем управлять несколькими сотнями дисков.

Использование очень больших массивов наносит ущерб самой цели CEPH, которая заключается в том, чтобы избежать единичных точек сбоев и «горячих точек». Это также повредит вашей избыточности.

Допустим, вы хотите построить кластер CEPH емкостью 1 ПБ, используя диски емкостью 8 ТБ, используя шасси с 36 дисковыми серверами (обычное аппаратное обеспечение типа Supermicro). Давайте сравним настройки с и без RAID с точки зрения емкости и надежности хранилища:

  • С RAID-6 вам нужно 5 шасси (и 10 OSD).

    • Каждое шасси будет иметь 2 18 дисковых RAID-массивов.
    • У вас будет 1024 ТБ доступного хранилища.
    • В случае множественного сбоя диска вам придется восстановить 256 ТБ.
  • С CEPH и 5 шасси у вас будет 180 OSD.

    • Доступная емкость будет немного выше (при использовании кода стирания): 1152 ТБ
    • в случае множественного сбоя диска вам придется перестраивать только количество отказавших дисков (если это не целый сервер, он всегда будет меньше 256 ТБ).

Я получаю требования Ceph, но все еще один главный вопрос не получил ответа. Какие требования предъявляются к 36 приводным шасси? Афаик, для этого нужно 36 ядер из описания ceph. Также, какой конфиг вы бы предложили для вашего примера? Каковы усилия по репликации и каковы ее критерии?
cilap

просто забыл Afaik ваша установка требует больше экземпляров или, возможно, даже больше серверов для управления.
cilap

@cilap это зависит от необходимой производительности на самом деле. Как правило, вам не нужно 1 ядро ​​на OSD, достаточно примерно половины ядер. Производительность кодирования стирания уступает полной репликации.
wazoox

Я не упомянул MDS, так как вы их в любом случае. в зависимости от платы за кластер вы можете использовать узлы хранения в качестве серверов MDS и MON.
wazoox
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.