Вопросы с тегом «data-warehouse»

Система баз данных, оптимизированная для отчетности, особенно в совокупности. Часто, но не всегда реализуется с использованием звездообразной схемы.

5
Как можно реализовать отношение «многие ко многим» в хранилище данных?
Доминирующие топологии моделирования хранилищ данных (Star, Snowflake) разработаны с учетом отношений «один ко многим». Читаемость запросов, производительность и структура сильно ухудшаются, когда сталкиваются с отношением «многие ко многим» в этих схемах моделирования. Каковы некоторые способы реализации отношения «многие ко многим» между измерениями или между таблицей фактов и измерением в хранилище …

3
Каковы аргументы в пользу использования процесса ELT над ETL?
Я понял, что моя компания использует процесс ELT (extract-load-transform) вместо использования процесса ETL (extract-transform-load). Каковы различия в этих двух подходах и в каких ситуациях один будет «лучше», чем другой? Было бы здорово, если бы вы могли привести несколько примеров.

3
Кластерные индексы хранилища столбцов и внешние ключи
Я настраиваю производительность хранилища данных, используя индексы. Я довольно новичок в SQL Server 2014. Microsoft описывает следующее: «Мы рассматриваем кластеризованный индекс columnstore как стандарт для хранения больших таблиц фактов хранилища данных и ожидаем, что он будет использоваться в большинстве сценариев хранилища данных. Поскольку кластеризованный индекс columnstore является обновляемым, ваша рабочая …

1
Стратегии запросов с использованием системных версий SQL Server 2016 с временными таблицами для медленно меняющихся измерений
При использовании системной версии темпоральной таблицы (впервые в SQL Server 2016), как влияют на разработку запросов и производительность, когда эта функция используется для обработки медленно меняющихся измерений в большом реляционном хранилище данных? Например, предположим, что у меня есть Customerизмерение из 100 000 строк со Postal Codeстолбцом и Salesтаблица фактов из …

2
Open Source Business Intelligence / DWH решения [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так это на тему для базы данных администраторов Stack Exchange. Закрыто 4 года назад . Интересно, этот вопрос еще не задавался. У Google очень мало результатов, которые не показывают высококачественный …

3
Сравните две похожие базы данных Postgres на предмет различий
Я иногда скачиваю общедоступные наборы данных в виде Postgres dBs. Эти наборы данных обновляются / модифицируются / расширяются со временем хостом хранилища. Есть ли команда или инструмент Postgres (в идеале FOSS), которые могут показать различия между старой и новой базой данных Postgres? (Рабочее предположение состоит в том, что 95% записей …

2
Альтернатива EAV для динамических полей в хранилище данных схемы типа звезда
Мне нужно поддерживать динамические поля и значения в большом хранилище данных для хранения журнала запросов API, в моем случае пользователь должен хранить строку запроса всех запросов API и иметь возможность выполнять запрос к ним в будущем (так что это не просто хранилище, поэтому я не могу использовать BLOB для них) …

2
ETL: извлечение из 200 таблиц - поток данных SSIS или пользовательский T-SQL?
Исходя из моего анализа, полная размерная модель нашего хранилища данных потребует извлечения из более чем 200 исходных таблиц. Некоторые из этих таблиц будут извлечены как часть дополнительной нагрузки, а другие будут полной загрузкой. Отметим, что у нас есть около 225 исходных баз данных с одинаковой схемой. Из того, что я …

1
Следует ли отключить «автоматическое обновление статистики» в сценарии с хранилищем данных?
У меня есть хранилище данных 200 ГБ в SQL Server. Я испытываю очень медленное время выполнения некоторых запросов; например 12 часов для простого deleteзапроса с inner join. Проведя некоторые исследования с планами выполнения, я обновил статистику двух таблиц, задействованных в запросе, используя эту WITH FULLSCANопцию. Теперь запрос выполняется менее чем …

2
Обработка часовых поясов в витрине данных / хранилище
Мы начинаем проектировать строительные блоки витрины / хранилища данных, и мы должны иметь возможность поддерживать все часовые пояса (наши клиенты со всего мира). Из чтения дискуссий в Интернете (и в книгах), похоже, общим решением является отдельное измерение даты и времени, а также временная метка в таблицах фактов. Тем не менее, …

2
Сжатие данных SQL Server категорически хорошо для баз данных только для чтения?
В некоторых литературных источниках, посвященных сжатию данных в SQL Server, говорится, что стоимость записи возрастает примерно в четыре раза по сравнению с тем, что обычно требуется. Также представляется, что это является основным недостатком сжатия данных, что подразумевает, что для архивной базы данных только для чтения производительность (за некоторыми исключениями) улучшится …

2
PostgreSQL для транзакций большого объема и для хранилищ данных
Я новичок в PostgreSQL, я никогда не делал большого развертывания, используя его раньше. Но у меня есть хороший опыт в корпоративных решениях, и я хочу попробовать применить кое-что из того, что я узнал, с помощью PostgreSQL. У меня есть сайт, который рассчитан на большое количество данных и трафика. Инфраструктура будет …

1
Ограничить степень параллелизма (DOP) для любого запроса
В Oracle Exadata (11gR2) у нас относительно жесткая база данных. cpu_count - 24 Параметр parallel_server_instances равен 2 Параллельный_поток_пер_про равен 2 Мы отметили, наблюдая в Oracle Enterprise Manager (OEM), что производительность была ужасной из-за запросов, выполняемых последовательно. Чтобы решить эту проблему, все таблицы, материализованные представления и индексы были изменены, чтобы использовать …

2
Проект хранилища данных для отчетности по данным для многих часовых поясов
Мы пытаемся оптимизировать дизайн хранилища данных, который будет поддерживать отчетность по данным для многих часовых поясов. Например, у нас может быть отчет за месяц активности (миллионы строк), который должен показывать активность, сгруппированную по часу дня. И, конечно, этот час дня должен быть "местным" часом для данного часового пояса. У нас …

2
База данных емкостью 100 терабайт - оценка ресурсов и времени
Я работаю над подсчетом «оборотной стороны» для настройки базы данных отчетов объемом 100 ТБ. Я ищу мысли от экспертов здесь. Предлагаемая среда: Емкость хранения ~ 100 ТБ Таблицы ~ 200, размеры от 1 ГБ до 5 ТБ. средний размер может лежать между 100 ГБ-200 ГБ ETL - задания могут требовать …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.