MS только что выступил с технологическим докладом в Нидерландах, где они обсуждали некоторые из этих вещей. Он начинается медленно, но попадает в мясо Hadoop примерно через 20 минут.
Суть в том, что «это зависит». Если у вас есть разумно упорядоченный (хотя бы в некоторой степени) простой для разделения набор данных, который (хотя бы в некоторой степени) является однородным, его будет достаточно легко масштабировать до таких больших объемов данных с помощью СУБД, в зависимости от того, что вы делаете ,
Hadoop и MR кажутся более приспособленными к ситуациям, когда вы вынуждены выполнять большое количество распределенных сканирований данных, особенно когда эти данные не обязательно столь же однородны или структурированы, как то, что мы находим в мире RDBMS.
С какими ограничениями не связаны решения Big Data? Для меня самым большим ограничением, с которым они не связаны, является необходимость заранее составить жесткую схему. С помощью решений для больших данных вы теперь помещаете огромные объемы данных в «ящик» и позже добавляете логику в свои запросы, чтобы справиться с отсутствием однородности данных. С точки зрения разработчика, компромиссом является простота реализации и гибкость внешнего интерфейса проекта по сравнению со сложностью запросов и менее оперативной согласованностью данных.