Актуальна ли выборка во время «больших данных»?


54

Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки.

Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана / реализована / изобретена / обнаружена? У меня нет смысла анализировать всю «совокупность» набора данных. То, что вы можете это сделать, не означает, что вы должны это делать (глупость - это привилегия, но вы не должны злоупотреблять ею :)

Поэтому мой вопрос заключается в следующем: является ли статистически значимым анализировать весь набор данных? Лучшее, что вы можете сделать, это минимизировать ошибку, если вы сделали выборку. Но стоит ли минимизировать эту ошибку? Действительно ли «ценность информации» стоит усилий, затрат времени и т. Д., Которые используются при анализе больших данных на массивно параллельных компьютерах?

Даже если проанализировать всю совокупность, результат все равно будет в лучшем случае предположением с большей вероятностью быть правым. Возможно, немного выше, чем выборка (или это будет намного больше?) Будет ли понимание, полученное в результате анализа популяции и анализа выборки, сильно отличаться?

Или мы должны принять это как «времена изменились»? Выборка как вид деятельности может стать менее важной при достаточной вычислительной мощности :)

Примечание: я не пытаюсь начать дебаты, но ищу ответ, чтобы понять, почему большие данные делают то, что они делают (т.е. анализируют все), и игнорируют теорию выборки (или нет?)


1
Смотрите также: stats.stackexchange.com/q/22502/7828 - как сделать правильные выводы из больших данных.
Anony-Mousse

2
(+1 давно) Мне всегда нравится читать ваши проницательные вопросы. Они являются реальным активом для этого сайта.
кардинал

1
@cardinal - я искренне ценю ваш комментарий. Значит, многое исходит от вас.
кандидат наук

Ответы:


29

Одним словом да . Я полагаю, что все еще существуют ясные ситуации, когда выборка уместна как внутри, так и вне мира «больших данных», но природа больших данных, безусловно, изменит наш подход к выборке, и мы будем использовать больше наборов данных, которые являются почти полными представлениями базовой численность населения.

Отбор проб: В зависимости от обстоятельств почти всегда будет ясно, является ли выборка подходящей вещью. Отбор проб не является изначально выгодным видом деятельности; это именно то, что мы делаем, потому что нам нужно найти компромисс в стоимости осуществления сбора данных. Мы пытаемся охарактеризовать популяции и должны выбрать подходящий метод для сбора и анализа данных о населении. Выборка имеет смысл, когда предельная стоимость метода сбора данных или обработки данных высока. Попытка охватить 100% населения в этом случае не является хорошим использованием ресурсов, потому что вам часто лучше справляться с такими вещами, как необъективность, чем с небольшими улучшениями в случайной ошибке выборки.

Чем отличаются большие данные? «Большие данные» отвечают на многие из тех вопросов, которые у нас были целую вечность, но «новым» является то, что сбор данных происходит в рамках существующего компьютерного процесса, поэтому предельные затраты на сбор данных практически равны нулю. Это резко снижает нашу потребность в отборе проб.

Когда мы все еще будем использовать выборку? Если ваша совокупность «больших данных» является правильной совокупностью для данной проблемы, то вы будете использовать выборку только в нескольких случаях: необходимость запуска отдельных экспериментальных групп или если объем данных слишком велик для сбора и обработки (многие в наше время мы можем легко обрабатывать миллионы строк данных, поэтому границы здесь становятся все дальше и дальше). Если мне кажется, что я отклонил ваш вопрос, то, возможно, потому, что я редко сталкивался с ситуациями, когда объем данных вызывал озабоченность на этапе сбора или обработки, хотя я знаю, что многие

Ситуация, которая мне кажется трудной, заключается в том, что ваша популяция «больших данных» не совсем точно отражает вашу целевую аудиторию, поэтому компромисс между яблоками и апельсинами. Допустим, вы являетесь региональным транспортным планировщиком, и Google предложил вам предоставить доступ к своим журналам GPS-навигации Android, чтобы помочь вам. Хотя набор данных, без сомнения, будет интересен для использования, население, вероятно, будет систематически предвзятым по отношению к малообеспеченным, пользователям общественного транспорта и пожилым людям. В такой ситуации традиционные путевые дневники, отправляемые в случайную выборку домохозяйств, хотя и являются более дорогостоящими и меньшими по количеству, все же могут быть лучшим методом сбора данных. Но это не просто вопрос «выборка против больших данных», это


22

Несмотря на то, что мобильными устройствами создаются большие объемы больших данных и тому подобное, в них мало полезных данных. Если вы хотите предсказать схемы городских поездок с использованием квадрата квадрата, вы можете оказаться на порядок в оценочных потоках. Хуже того, вы не будете знать, переоценили ли вы или недооценили эти потоки. Вы можете получить безумно точную картину городских маршрутов пользователей маниакальной четверки, но если всем не требуется (1) держать работающий смартфон, (2) постоянно запускать приложение четверки и (3) зарегистрироваться на в любом месте, где они останавливаются дольше 10 минут (например, получите электронную перепись; пусть либертарианцы будут жаловаться на Google и Facebook, зная все о вас), ваши данные будут содержать неизвестные предубеждения, а ваши электронные Deweys будут продолжать опровергать настоящие слова Труманы (кликабельно):


(источник: whatisasurvey.info )

Во всяком случае, я ожидал бы, что этот кусочек истории будет повторяться, и некоторые большие прогнозы «пиво + подгузники», полученные из больших данных, будут опровергнуты исследователями, использующими более строгие методы выборки. Это удивительно , что вероятность на основе исследования остаются точными даже несмотря на снижение темпов реагирования.


1
(+1) Но не будет ли стереотипный пользователь с четырьмя квадратами противоположностью параноика . ;-)
кардинал

1
Да ... наверное плохой термин. Позвольте мне изменить это на маниакальное!
StasK

2
Большие данные не виновник. Это как это используется. Когда он имеет информацию и применяется соответствующим образом, это может быть очень полезно. Интеллектуальный анализ данных не все плохо.
Майкл Черник

Отличный момент при использовании больших данных для информации о трафике. Поскольку такие компании, как Google и Apple, уже делают это, я думаю, что это отличный пример того, где (в настоящее время доступные) большие данные могут не хватать для некоторых аудиторий, и я попытался включить их в свой ответ.
Джонатан

@ Майкл, ты прав, конечно. Данные очень дешевы, но способы извлечения полезной информации из них не падают - во всяком случае, они растут, так как теперь нужно просеять больше данных, чтобы получить полезную информацию.
StasK

21

Всякий раз, когда кто-то применяет методы статистического вывода, важно иметь четкое представление о населении, относительно которого он стремится сделать выводы. Даже если данные, которые были собраны, очень велики, они все равно могут относиться только к небольшой части населения и могут быть не очень репрезентативными для всего.

Предположим, например, что компания, работающая в определенной отрасли, собрала «большие данные» о своих клиентах в определенной стране. Если он хочет использовать эти данные, чтобы сделать выводы о своих существующих клиентах в этой стране, то выборка может быть не очень актуальной. Однако, если он хочет сделать выводы о большей численности населения - потенциальных, а также существующих клиентов или клиентов в другой стране - тогда становится важным рассмотреть вопрос о том, в какой степени клиенты, о которых собирались данные, являются репрезентативными - возможно, по доходу, возрасту. , пол, образование и т. д. - большей части населения.

Измерение времени также необходимо учитывать. Если цель состоит в том, чтобы использовать статистический вывод для обоснования прогнозов, то следует понимать, что популяция распространяется на будущее. Если это так, то снова становится необходимым рассмотреть вопрос о том, был ли набор данных, каким бы большим он ни был, был получен при обстоятельствах, характерных для тех, которые могут быть получены в будущем.


Добро пожаловать на наш сайт, Адам! (Если вы регистрируетесь регулярно, вы даже найдете случайные возможности проявить свои интересы в геометрии и теории чисел . :-)
whuber

Отличный момент о необходимости учитывать население! Это один из лучших способов, которыми люди могут лениться о больших данных.
Джонатан

«Даже если данные, которые были собраны, очень велики, они все равно могут относиться только к небольшой части населения и могут быть не очень репрезентативными для всего». Я думаю, что это предложение само по себе ответ на многие вопросы.
Бемипефе

13

Из того, что я видел в увлечении большими данными / ML, размышления о выборке и населении, из которого берется ваша выборка, так же важны, как и раньше, - но думали о еще меньшем.

Я «одитирую» класс Стэнфордского ML, и до сих пор мы рассмотрели регрессию и нейронные сети, не упоминая о демографическом выводе. Так как этот класс был укомплектован 6-значными людьми, сейчас есть очень много людей, которые очень точно знают, как подгонять данные, не имея понятия об образце.


3
Я полностью согласен. Наблюдая за нынешним увлечением машинным обучением (в основном, практиками и программистами), большими данными и «наукой о данных», я нахожу смехотворной черту для людей полностью игнорировать выборку, умозаключения, понимание и смысл статистических рассуждений и жертвовать ими ради слепого применения чего-либо алгоритм хип на это. Вы можете даже видеть это с вопросами и некоторыми ответами здесь на взаимном подтверждении. Вот почему я также считаю, что это ажиотаж, который скоро устареет или заимствует статистическую эпистемологию и, таким образом, станет ветвью статистики (в любом случае, я считаю ее таковой).
Момо

2
Если этот класс ОД похож на тот, который я проверял некоторое время назад, то перед неравенством Хоффдинга появилось техническое предположение о том, что данные обучения представляют собой совершенно случайную выборку из совокупности. К сожалению, это почти никогда не происходит, по крайней мере, по моему опыту, и в примерах применения методов на протяжении всего курса. Это все еще не тот случай, когда вы используете «большие данные».
Дуглас Заре

12

Да, выборка актуальна и останется актуальной. Суть в том, что точность статистической оценки, как правило, зависит от размера выборки, а не от совокупности, которую мы хотим обобщить. Таким образом, среднее или среднее значение, рассчитанное по выборке из 1000 респондентов, даст оценку с определенной точностью (по отношению ко всей популяции, из которой мы провели выборку), независимо от размера населения (или «насколько велика» « большие данные »

Сказав, что: Есть конкретные вопросы и проблемы, которые актуальны и должны быть упомянуты:

  1. Взять хороший выбор вероятности не всегда легко. Теоретически, каждый индивид в популяции, которую мы хотим обобщить (о которой мы хотим сделать выводы), должен иметь известную вероятность выбора; в идеале эта вероятность должна быть одинаковой (выборка с равной вероятностью или EPSEM - равная вероятность выбора). Это важное соображение, и необходимо иметь четкое представление о том, как процесс выборки будет назначать вероятности выбора для членов группы населения, к которой нужно обобщить. Например, можно ли извлечь из Твиттера точные оценки общих настроений среди населения в целом, включая людей без аккаунтов в Твиттере?
  2. Большие данные могут содержать очень сложные детали и информацию; Другими словами, проблема заключается не в выборке, а в (микро) сегментации, извлекая правильные детали для небольшого подмножества наблюдений, которые имеют отношение к делу. Здесь задача не в выборке, а в том, чтобы определить конкретную стратификацию и сегментацию больших данных, которая дает наиболее точную информацию, которая может быть использована для получения ценной информации.
  3. Другое общее правило измерения мнений заключается в том, что ошибки и смещения, не связанные с выборкой, обычно намного больше, чем ошибки и смещения выборки. Тот факт, что вы обрабатываете 100 миллиардов записей респондентов, выражающих свое мнение, не делает результаты более полезными, если у вас есть данные только из выборки в 1000 человек, в частности, если вопросы к соответствующему опросу были написаны неправильно и вызвали предвзятость.
  4. Иногда требуется выборка: например, если построить прогнозную модель на основе всех данных, как ее можно проверить? Как можно сравнить точность разных моделей? При наличии «больших данных» (очень больших хранилищ данных) можно построить несколько моделей и сценариев моделирования для разных выборок и проверить их (опробовать) в других независимых выборках. Если бы нужно было построить одну модель для всех данных - как бы ее проверить?

Вы можете проверить нашу «революцию больших данных» здесь.


1
Добро пожаловать на наш сайт, Кира!
whuber

3

Многие методы больших данных на самом деле разработаны вокруг выборки.

Вопрос должен быть больше на линии:

Разве мы не должны использовать систематическую выборку с большими данными?

Многое из «больших данных» все еще довольно свежо, а иногда и наивно. Например, K-средства могут быть тривиально распараллелены и, таким образом, работают для «больших данных» (я не буду говорить о результатах, они не очень значимы; и, вероятно, не очень отличаются от результатов, полученных на выборке!). Насколько я знаю, это то, что делает реализация k-средних в Mahout.

Тем не менее, исследование выходит за рамки наивного распараллеливания (которое может все еще потребовать большого количества итераций) и пытается выполнить K-средства в фиксированном количестве итераций. Пример для этого:

  • Быстрая кластеризация с использованием MapReduce
    Ene, A. and Im, S. и Moseley, B.
    Материалы 17-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2011

И угадайте, что, их подход в значительной степени основан на выборке .

Следующий пример: Решение леса . По сути, для нескольких выборок из набора данных создайте дерево решений. Можно снова тривиально распараллелить: поместите каждый образец на отдельную машину. И снова, это основанный на выборке подход.

Таким образом, выборка является одним из ключевых компонентов подходов к большим данным!

И в этом нет ничего плохого.


2

Перекрестная проверка является конкретным примером подвыборки, которая очень важна для ОД / больших данных. В целом, большие данные все еще обычно являются выборкой населения, как уже упоминали другие люди.

Но я думаю, что OP может конкретно относиться к выборке, поскольку она относится к контролируемым экспериментам, а не к данным наблюдений. Обычно большие данные считаются последними, но, по крайней мере, для меня есть исключения. Я бы подумала о рандомизированных испытаниях, A / B-тестировании и многоруких бандитах в настройках электронной коммерции и социальных сетей в качестве примеров «выборки в условиях больших данных».


1

В областях, где большие данные набирают популярность: поиск, реклама, рекомендательные системы, такие как Amazon, Netflix, существует очень большой стимул для изучения всего набора данных.

Целью этих систем является адаптация рекомендаций / предложений для каждого члена населения. Кроме того, количество изучаемых атрибутов огромно. Средняя система веб-аналитики может измерять рейтинг кликов, «тепловое отслеживание» «горячих областей» на странице, социальные взаимодействия и т. Д. И сопоставлять их с большим набором заранее определенных целей.

Что еще более важно, большинство мест, где большие данные сейчас повсеместно распространены, представляют собой «онлайн» потоки данных, то есть данные постоянно добавляются / обновляются. Разработка схемы выборки, которая охватывает все эти атрибуты без присущей ей предвзятости и все же дает многообещающие результаты (читайте лучше), является сложной задачей.

Отбор проб по-прежнему остается весьма актуальным для обследований, медицинских испытаний, A / B-тестирования, обеспечения качества.

В двух словах, выборка очень полезна, когда исследуемая популяция очень велика, и вас интересуют макроскопические свойства популяции. 100% проверка (большие данные) необходима для использования микроскопических свойств системы

Надеюсь это поможет :)


Итак, вы считаете, что они не хотят обобщать данные, которые у них есть, до данных, которых у них еще нет? Или что они думают, что их выборка настолько велика, что им не нужно беспокоиться об этих проблемах? Или то, что базовые параметры будут меняться со временем, поэтому не имеет значения, пока они продолжают обновляться по мере поступления новых данных?
gung - Восстановить Монику

@gung проблема не в размере выборки, а в проблеме создания несмещенной выборки для набора данных, который имеет огромное количество атрибутов. Обобщение обычно выполняется с помощью алгоритмов машинного обучения, которые обучаются на части набора данных. Постоянно поступающие онлайн-потоки данных делают проблему выборки вторичной, поскольку пакетные обновления могут использоваться для изменения параметров.
rrampage
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.