Возможен ли ceph для обработки аппаратных RAID-массивов (LUN) в качестве дисков OSD?

8

Я довольно новичок в ceph и пытаюсь выяснить, поддерживает ли ceph HBA на аппаратном уровне.

К сожалению, не смог найти никакой информации. Я обнаружил, что для OSD рекомендуется использовать простые диски. Но это выдвигает требования к PCIe, интерфейсам диска к высокой пропускной способности, а требования к ЦП очень высоки. Аппаратные RAID-контроллеры уже решили эти требования, и они обеспечивают высокую избыточность в зависимости от настроек, не используя мой PCIe, CPU или любые другие ресурсы.

Поэтому я бы хотел, чтобы у меня был локальный RAID-контроллер (и), который обрабатывал бы избыточность моего диска на уровне контроллера (Raid 5, raid 6) независимо от того, какой уровень RAID мне нужен. Вдобавок к тому, что RAID LUN, я хотел бы использовать ceph для более высокого уровня репликации между: хостом, шасси, стойкой, строкой, центром обработки данных или любым другим возможным или планируемым в CRUSH

Есть опыт в этой настройке?

Это рекомендуемая установка?

Есть какая-нибудь глубокая документация для этой аппаратной интеграции RAID?

— cilap
источник

7

Вы можете не значит, что вы должны. Возможно преобразование логических модулей RAID в Ceph, но вы добавляете один дополнительный уровень абстракции и вид, по крайней мере, часть ненужной функциональности Ceph.

Подобная тема в их списке рассылки:

http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/021159.html

— BaronSamedi1958
источник

1

не могли бы вы подробнее рассказать о том, как «сделать хотя бы часть функциональности Ceph бесполезной»? Не поймите суть

— cilap

1

Вся идея Сефа ... Хорошо, одна из главных идей! Избегать управления «островками хранения», которые являются RAID LUN.

— BaronSamedi1958

0

Но это выдвигает требования к PCIe, интерфейсам диска к высокой пропускной способности, а требования к ЦП очень высоки.

Не совсем, многие рабочие нагрузки хранения хорошо обслуживаются современными процессорами общего назначения и межсоединениями.

Да, контроллер RAID заботится о резервировании с помощью нескольких дисков в одном корпусе. Но это стоит затрат и сложностей, когда вы используете уже избыточные многоузловые решения распределенного хранения, такие как Ceph. Зачем зеркалировать физический диск, если у Ceph уже есть несколько его копий?

Строительные блоки такого решения - просто связка дисков. Такие как Open Vute Storage Compute Storage . 30 шпинделей в корпусе, прикрепленном к вычислительному узлу, возможно, из пары десятков ядер ЦП. Добавьте столько узлов, сколько вам нужно для масштабирования. Вы можете оставить эти вычисления выделенными для Ceph, если хотите максимизировать пропускную способность.

— Джон Маховальд
источник

Есть ли у вас факты с реальными тестами производительности процессора, памяти и диска по сравнению с тестами аппаратного RAID? С аппаратными RAID-массивами у меня низкие требования к процессору и памяти, так как об этом заботится аппаратный контроллер.

— до

Я не. И вы действительно хотели бы сделать свой собственный тест в любом случае. Просто отметьте, что процессоры выполняют миллиарды циклов в секунду, а межсоединения (PCIe) выполняют миллиарды передач в секунду. Вы можете свободно использовать RAID-контроллер, это просто не нужно в распределенном узле хранения.

— Джон Маховальд

-1

Рекомендуемая настройка - использовать отдельные диски или, в конце концов, диски в парах RAID-1.

Один контроллер SAS (или контроллер RAID в режиме JBOD) может без проблем управлять несколькими сотнями дисков.

Использование очень больших массивов наносит ущерб самой цели CEPH, которая заключается в том, чтобы избежать единичных точек сбоев и «горячих точек». Это также повредит вашей избыточности.

Допустим, вы хотите построить кластер CEPH емкостью 1 ПБ, используя диски емкостью 8 ТБ, используя шасси с 36 дисковыми серверами (обычное аппаратное обеспечение типа Supermicro). Давайте сравним настройки с и без RAID с точки зрения емкости и надежности хранилища:

С RAID-6 вам нужно 5 шасси (и 10 OSD).
- Каждое шасси будет иметь 2 18 дисковых RAID-массивов.
- У вас будет 1024 ТБ доступного хранилища.
- В случае множественного сбоя диска вам придется восстановить 256 ТБ.
С CEPH и 5 шасси у вас будет 180 OSD.
- Доступная емкость будет немного выше (при использовании кода стирания): 1152 ТБ
- в случае множественного сбоя диска вам придется перестраивать только количество отказавших дисков (если это не целый сервер, он всегда будет меньше 256 ТБ).

— wazoox
источник

Я получаю требования Ceph, но все еще один главный вопрос не получил ответа. Какие требования предъявляются к 36 приводным шасси? Афаик, для этого нужно 36 ядер из описания ceph. Также, какой конфиг вы бы предложили для вашего примера? Каковы усилия по репликации и каковы ее критерии?

— cilap

просто забыл Afaik ваша установка требует больше экземпляров или, возможно, даже больше серверов для управления.

— cilap

@cilap это зависит от необходимой производительности на самом деле. Как правило, вам не нужно 1 ядро на OSD, достаточно примерно половины ядер. Производительность кодирования стирания уступает полной репликации.

— wazoox

Я не упомянул MDS, так как вы их в любом случае. в зависимости от платы за кластер вы можете использовать узлы хранения в качестве серверов MDS и MON.

— wazoox