Как вы правильно заметили, в наши дни «большие данные» - это то, что каждый хочет сказать, что у них есть, что влечет за собой некоторую разболтанность в том, как люди определяют термин. В целом, однако, я бы сказал, что вы, безусловно, имеете дело с большими данными, если масштаб таков, что уже невозможно управлять более традиционными технологиями, такими как RDBMS, по крайней мере, не дополняя их технологиями больших данных, такими как Hadoop.
То, насколько большими должны быть ваши данные для этого, является спорным. Вот (несколько провокационное) сообщение в блоге, в котором утверждается, что на самом деле это не так для данных объемом менее 5 ТБ. (Для ясности, он не утверждает, что «меньше 5 ТБ - это не большие данные», а просто «Меньше 5 ТБ - это недостаточно, чтобы вам нужен Hadoop».)
Но даже для небольших наборов данных технологии больших данных, такие как Hadoop, могут иметь и другие преимущества, в том числе то, что они хорошо подходят для пакетных операций, хорошо играют с неструктурированными данными (а также с данными, структура которых заранее неизвестна или может измениться), горизонтальной масштабируемостью ( масштабирование путем добавления большего количества узлов вместо усиления существующих серверов) и (как один из комментаторов вышеупомянутых связанных заметок к заметкам) возможность интегрировать обработку данных с внешними наборами данных (подумайте о сокращении карты там, где сопоставитель) звонит на другой сервер). Другие технологии, связанные с большими данными, такие как базы данных NoSql, подчеркивают высокую производительность и постоянную доступность при работе с большими наборами данных, а также способностью обрабатывать полуструктурированные данные и масштабироваться по горизонтали.
Конечно, традиционные СУБД имеют свои преимущества, в том числе гарантии ACID (атомарность, согласованность, изоляция, долговечность) и лучшую производительность для определенных операций, а также более стандартизированные, более зрелые и (для многих пользователей) более знакомые. Таким образом, даже для неоспоримо «больших» данных, это может иметь смысл для загрузки, по меньшей мере, части данных в традиционную базу данных SQL и использовать его в сочетании с большими технологиями передачи данных.
Итак, более щедрым определением будет то, что у вас есть большие данные, если они достаточно велики, чтобы технологии больших данных предоставляли вам дополнительную ценность. Но, как вы можете видеть, это может зависеть не только от размера ваших данных, но и от того, как вы хотите с ними работать, и от того, какие у вас требования в отношении гибкости, согласованности и производительности. Как вы используете ваши данные более непосредственное отношение к вопросу , чем то , что вы используете его для (например , интеллектуального анализа данных). Тем не менее, такие виды использования, как интеллектуальный анализ данных и машинное обучение, с большей вероятностью принесут полезные результаты, если у вас достаточно большой набор данных для работы.