Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки.
Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана / реализована / изобретена / обнаружена? У меня нет смысла анализировать всю «совокупность» набора данных. То, что вы можете это сделать, не означает, что вы должны это делать (глупость - это привилегия, но вы не должны злоупотреблять ею :)
Поэтому мой вопрос заключается в следующем: является ли статистически значимым анализировать весь набор данных? Лучшее, что вы можете сделать, это минимизировать ошибку, если вы сделали выборку. Но стоит ли минимизировать эту ошибку? Действительно ли «ценность информации» стоит усилий, затрат времени и т. Д., Которые используются при анализе больших данных на массивно параллельных компьютерах?
Даже если проанализировать всю совокупность, результат все равно будет в лучшем случае предположением с большей вероятностью быть правым. Возможно, немного выше, чем выборка (или это будет намного больше?) Будет ли понимание, полученное в результате анализа популяции и анализа выборки, сильно отличаться?
Или мы должны принять это как «времена изменились»? Выборка как вид деятельности может стать менее важной при достаточной вычислительной мощности :)
Примечание: я не пытаюсь начать дебаты, но ищу ответ, чтобы понять, почему большие данные делают то, что они делают (т.е. анализируют все), и игнорируют теорию выборки (или нет?)