База данных емкостью 100 терабайт - оценка ресурсов и времени

Я работаю над подсчетом «оборотной стороны» для настройки базы данных отчетов объемом 100 ТБ. Я ищу мысли от экспертов здесь. Предлагаемая среда:

Емкость хранения ~ 100 ТБ
Таблицы ~ 200, размеры от 1 ГБ до 5 ТБ. средний размер может лежать между 100 ГБ-200 ГБ
ETL - задания могут требовать объединения между таблицами из 10 миллионов строк, с ключами объединения от 10 байтов до 500 байтов. такие объединения должны закончиться в течение 2-5 минут
Live Selects - изначально интересует только выбор скорости. должен поддерживать 500 отборов / секунду. Количество обновлений в секунду будет относительно меньшим, и в этом упражнении их можно игнорировать.
нужна круглосуточная доступность. 2 независимых сервера БД должны быть доступны для обслуживания отдельных вызовов (с реплицированными данными).

Вопросов:

В настоящее время я смотрю на Oracle. Каков ваш опыт работы с другими коммерческими (или) решениями с открытым исходным кодом для больших баз данных?
Какую аппаратную ОС вы видели лучше всего? Я планирую Linux на Dell.
Является ли сетевое хранилище, такое как NetApp, обязательным? Какие проблемы вы предвидите с использованием коммерческих дисков?
Как только оборудование и ОС будут готовы, сколько времени вы отведете на установку, настройку БД, хранилища и т. Д.
Какие командные составы работали лучше всего в условиях, которые вы наблюдали? Я имею в виду, что различные администраторы (OS Admin, Oracle DB Admin?) Необходимы для управления и настройки такой установки. Сколько из них может понадобиться для обеспечения круглосуточной работы.
Любое приближение / диапазон лицензий БД, стоимость сетевого хранилища.

Я знаю, что у меня нет всех деталей окружающей среды. Я не ищу точные детали, приближение достаточно. Хотя на некоторые вопросы лучше всего отвечают менеджеры, меня интересует точка зрения администраторов. Я ценю ваш вклад.

oracle database-recommendation data-warehouse

— Kash
источник

Я думаю, что этот вопрос слишком широк, чтобы ответить. Я позволю другим увидеть, согласны ли они, прежде чем я прогрессирую.

— Philᵀᴹ

@ Я согласен, я не был уверен, стоит ли разбивать это на несколько вопросов, чтобы пользователи с разным опытом могли ответить на разные вопросы. Но описание среды одинаково для всех вопросов, поэтому приступил к одному вопросу. Я думаю, что это может быть мой первый вопрос о SO (хотя и обычный пользователь SO), поэтому считайте меня новичком, и, если есть лучший способ задать этот вопрос, пожалуйста, предложите.

— Каш

Это звучит как многомиллионный проект. Вы бы основали такой проект на совете форума?

— Ремус Русану

@RemusRusanu Это не единственный источник информации. Когда это перейдет к фазе официальной оценки, будет много других мероприятий. У меня высокое мнение о совете, который дают пользователи SO. При написании вопроса я был уверен, что найду некоторые очень полезные детали, о которых я вообще не задумывался.

— Каш

@RemusRusanu - это так. Последняя цена, которую я видел для Netezza, составляла 20 тыс. Долл. США / ТБ для систем TwinFin. Не уверен, на что пошла бы коробка Exadata такого уровня. Кроме того, SLA довольно агрессивен, и система выглядит так, как будто у нее большая база пользователей. Для обработки нагрузки запросов может потребоваться большее количество серверов витрин данных.

— ConcernedOfTunbridgeWells

Ответы:

Первые впечатления

В зависимости от ваших требований к производительности, 100 ТБ - довольно агрессивный объем данных. Если вы хотите Oracle, вы должны проверить их системы Exadata. Кроме того, взгляните на предложения от Netezza или Teradata. При таком объеме выбора вы можете захотеть взглянуть на интерфейс на основе OLAP или, по крайней мере, на довольно агрессивное использование материализованных представлений и переписывания запросов. Вы не получите 500 сканирований таблицы / сек из всего.

Для материалов с менее строгими требованиями к задержке вы можете рассмотреть возможность увеличения количества витрин данных, чтобы предоставить возможности отчетности для вашего сообщества пользователей. В этом случае SQL Server и SSAS могут быть вариантом для витрин данных, поскольку лицензирование на большем количестве серверов будет дешевле, чем пытаться сделать то же самое с Oracle.
Смотрите (1). Обычное оборудование в архитектуре с общим диском, вероятно, будет медленным в этом наборе данных размера.
НЕТ! Если кто-нибудь предложит NFS, хорошо пинайте их. Либо хранилище с прямым подключением, либо SAN с несколькими контроллерами и большим количеством контроллеров среднего уровня. Подумайте, возможно, о паре дюжин контроллеров серии MD3000 или о чем-то подобном - если вы не собираетесь использовать специально созданную платформу «больших данных».
Получите специалиста по хранению с опытом работы с платформами хранилищ данных PB диапазона. Вероятно, вы готовы к серьезной работе по разработке ETL и большому количеству тестирований, если вам нужно встретить жесткий SLA.
24x7 в хранилище данных амбициозен в лучшие времена. Это платформа оперативной отчетности? Возможно, вы могли бы уточнить ваши требования немного.
Сфинктер - очень дорогой и зависит от ваших требований к производительности. Последнее, что я видел (пару лет назад), Netezza использовал 20 000 долл. США / ТБ для систем TwinFin, делая вашу платформу 2 млн. Долл. США за 100 ТБ плюс стоимость вашего резервного сервера и оборудования для резервного копирования. Я полагаю, что Exadata немного дешевле, но у меня нет никаких цен.

Взгляните на Netezza, Exadata и платформу Teradata для сравнения, а также на стоимость Ab Initio как инструмента ETL.

Это довольно агрессивный набор требований - 24x7 в хранилище данных обычно не выполняется, а объемы данных достаточно велики, чтобы поставить вас на уровень платформы «больших данных». Если у вас есть требование к оперативной отчетности, вы должны внимательно посмотреть, что это такое. Держите его отдельно от своей аналитики, если только у вас нет особой причины (например, рыночных данных с низкой задержкой) не делать этого. Смешивать операционные и аналитические требования на одной платформе плохо

Я думаю, что вам действительно нужно привлечь специалистов, чтобы оценить ваши требования. Без пристального взгляда на то, что вы пытаетесь достичь, все, что я могу дать, - это некоторые эмпирические предложения о том, что делать или не делать.

— ConcernedOfTunbridgeWells
источник

Вот некоторые другие варианты, которые следует учитывать при работе с такими большими объемами данных:

Все, что @ConcernedOfTunbridgeWells опубликовал
Greenplum от EMC
Параллельное хранилище данных от Microsoft

Не планируйте экономить на оборудовании где-либо. Система с такими характеристиками обойдется вам в большие деньги.

— mrdenny
источник