«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но не нарушаем ли мы все классические статистические принципы, такие как проверка гипотез и репрезентативная выборка?
Пока мы делаем только прогнозы относительно одного и того же набора данных, это должно быть хорошо. Так что, если я использую данные Twitter для прогнозирования поведения пользователей Twitter, это, наверное, нормально. Однако использование данных Twitter для прогнозирования, например, Выборы, полностью игнорирует тот факт, что пользователи Twitter не являются репрезентативной выборкой для всего населения. Кроме того, большинство методов на самом деле не смогут провести различие между истинным настроением «широких масс» и кампанией. И твиттер полон кампаний. Таким образом, анализируя Twitter, вы быстро заканчиваете тем, что измеряете кампании и ботов. (См., Например, «Yahoo предсказывает политических победителей Америки»который полон избиения опросов и «анализ настроений намного лучше». Они предсказали, что «у Ромни более 90 процентов вероятности выиграть номинацию и выиграть первичку в Южной Каролине» (у него было 28%, в то время как у Гингрича было 40% в этом первичном).
Знаете ли вы другие такие большие данные не удается ? Я грубо помню, что один ученый предсказал, что вы не сможете поддерживать более 150 дружеских отношений. На самом деле он обнаружил только ограничение кепки в Friendster ...
Что касается данных из твиттера или вообще любых «больших данных», собранных из Интернета, я считаю, что часто люди даже вносят дополнительный уклон при сборе данных. Мало кто будет в твиттере. У них будет определенное подмножество, которое они пропустили, и это просто еще одно смещение в их наборе данных.
Разделение данных в набор тестов или для перекрестной проверки, вероятно, мало чем поможет. Другой набор будет иметь такой же уклон. А для больших данных мне нужно «сжать» мою информацию настолько сильно, что я вряд ли смогу ее перегрузить.
Недавно я услышал эту шутку с учёным, работающим с большими данными, который обнаружил, что в мире приблизительно 6 полов ... и я могу себе представить, что это произойдет ... "Мужчина, Женщина, Орк, Пушистик, Да и Нет".
Итак, какими методами мы должны вернуть статистику в анализ, особенно когда пытаемся предсказать что-то за пределами набора данных «больших данных»?