Какое определение для «Big Data»?


23

Есть один?

Все определения, которые я могу найти, описывают размер, сложность / разнообразие или скорость данных.

Определение Википедии - единственное, которое я нашел с фактическим числом

Большие объемы данных являются постоянно меняющейся целью, начиная с 2012 года, начиная от нескольких десятков терабайт до нескольких петабайт данных в одном наборе данных.

Однако это, по-видимому, противоречит определению MIKE2.0 , указанному в следующем параграфе, которое указывает, что «большие» данные могут быть небольшими и что 100 000 датчиков на самолете, создающих только 3 ГБ данных, можно считать большими.

IBM говорит, что:

Большие данные проще, чем вопрос размера.

подчеркнули размер в своем определении .

О'Рейли также подчеркнул "volume, velocity and variety" . Хотя это объяснение хорошо и более подробно, определение, кажется, переосмысливает другие - или наоборот, конечно.

Я думаю, что заголовок статьи Computer Weekly довольно хорошо суммирует ряд статей «Что такое большие данные и как их можно использовать для получения конкурентного преимущества» .

Но ZDNet выигрывает с 2012 года :

«Большие данные» - это ключевая фраза, которая бурлит из ниши высокопроизводительных вычислений на ИТ-рынке ... Если посмотреть доклады десяти поставщиков технологий, вероятно, появятся пятнадцать или около того различных определений. Каждое определение, конечно, имеет тенденцию поддерживать потребность в продуктах и ​​услугах этого поставщика. Представь это.

По сути, «большие данные» в некотором роде являются «большими».

Что такое "большой"? Это количественно в настоящее время?

Если «большой» не поддается количественной оценке, есть ли определение, которое не опирается исключительно на общности?


7
«Что такое« большой »? Измерим ли он в настоящее время?». Конечно. Большой больше, чем вы можете справиться в настоящее время;)
Одед

1
@Oded, тогда вам нужно будет определить "handle" :-).
Бен

14
Если вам нужно спросить, ваш недостаточно велик, чтобы считать. ;)
FrustratedWithFormsDesigner

@Ben - Это определяется по-разному для каждого человека и системы ...
Одед

4
«Большой», скорее всего, относится к «сложному в обращении». Достаточно, чтобы не поместиться в памяти, заполнить диск, занять время для передачи по сети и т. Д.

Ответы:


42

Там нет ни одного; это модное слово.

Суть в том, что ваши данные находятся за пределами возможностей традиционных систем. Данные слишком велики для хранения на самом большом диске, запросы занимают слишком много времени без специальной оптимизации, сеть или диск не могут поддерживать поток входящего трафика, простой старый вид данных не будет обрабатывать визуализацию для формы / размер / широта данных ...

По сути, то, что ваши данные находятся за пределами какого-то плохо определенного переломного момента, когда «просто добавьте больше оборудования» не приведет к их снижению.


+1 и, более того, то, что считается «большим», постоянно меняется, так как улучшается аппаратное обеспечение, а ранее настроенные инструменты становятся зрелыми, стандартизированными и продаются на коммерческой основе для решения таких проблем.
FrustratedWithFormsDesigner

Другими словами: нет, не знаю, нет, нет :-).
Бен

Кроме того, до того, как большие данные стали великими, многие компании и исследовательские институты уже занимались большими данными. Только теперь, когда все проблемы с социальными сетями и большими данными становятся все более популярными.
Пол Химстра

2

Как указано в ссылке на Oracle (комментарий Иммада Карима), oracle.com/us/technologies/big-data/index.html. Большие данные - это все, что не является реляционными данными, хранящимися в РСУБД. За несколько лет до шумихи было просто «много данных». Теперь это действительно росло и рекламировалось маркетологами как какие-то особые данные.

Есть несколько второстепенных причин (помимо маркетинга), чтобы считать большие данные реальной вещью.

  1. Изобретение Map-Reduce
  2. Технологии NOSQL, такие как Hadoop
  3. Некоторая эволюция традиционных СУБД под влиянием спроса на неструктурированные типы данных
  4. Возможно, некоторые аппаратные технологии, предлагаемые корпорацией EMC2

2
«Изобретение Map-Reduce»? Вы должно быть шутите.
Теластин

1
«Все, что не является реляционными данными» - это определение, которое может исходить только от кого-то, столь же RDB-центрированного, как Oracle (и это неправильно). Согласно этому определению, каждый индекс SolR, каждая база данных MongoDB и каждая БД Berkley являются «большими данными». И это просто глупо.
Йоахим Зауэр

0

Используя ответ Дуга Лейни в качестве отправной точки, мы пересмотрели список определений Больших Данных, которым уже более 30 лет, и они становятся сильными. Наш список определений для «больших данных» находится здесь .

Мы приветствуем исправления, записи, графику и т. Д.


-1

Приятно видеть, что О'Рейли и другие наконец-то запечатлели 3V больших данных Gartner, которые мы впервые представили более 11 лет назад. Для справки вот оригинальная статья, которую я написал в 2001 году: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ ,

В недавно обновленном определении Gartner также признается аспект ценности: «Большие данные - это информационные активы с объемами, скоростями и / или разнообразием, для которых требуются инновационные формы обработки информации для расширенного анализа знаний, принятия решений и автоматизации процессов».

Мы также разработали метод количественной оценки величины данных по трем векторам, которые являются предписывающими с точки зрения внедрения технологий. Однако я не могу поделиться этим публично.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.