Вопросы с тегом «large-data»

«Большие данные» относятся к ситуациям, когда количество наблюдений (точек данных) настолько велико, что требует изменений в том, как аналитик данных думает или проводит анализ. (Не путать с «высокой размерностью».)

12
Как мне преобразовать неотрицательные данные, включая нули?
Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на 0. журнал( х + с )log⁡(x+c)\log(x+c) где c либо …

14
Являются ли большие наборы данных неподходящими для проверки гипотез?
В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я, …

5
Какие навыки необходимы для проведения крупномасштабного статистического анализа?
Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами выборок?

7
Проблемы промышленности и Kaggle. Собирать больше наблюдений и иметь доступ к большему количеству переменных важнее, чем модное моделирование?
Я надеюсь, что название говорит само за себя. В Kaggle большинство победителей используют стеки с иногда сотнями базовых моделей, чтобы выжать несколько лишних% MSE, точность ... В целом, по вашему опыту, насколько важно модное моделирование, такое как стекирование, а не просто сбор большего количества данных и больше функций для данных?

8
Актуальна ли выборка во время «больших данных»?
Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана …

10
Каков хороший алгоритм для оценки медианы огромного набора данных с однократным чтением?
Я ищу хороший алгоритм (подразумевающий минимальные вычисления, минимальные требования к хранилищу) для оценки медианы набора данных, который слишком велик для хранения, так что каждое значение может быть прочитано только один раз (если вы явно не сохраните это значение). На данных, которые можно предположить, нет границ. Аппроксимации хороши, пока точность известна. …

10
Что такое большие данные?
Мне несколько раз задавали вопрос: Что такое Big-Data? И студентами, и моими родственниками, которые накапливают шум вокруг статистики и ML. Я нашел это резюме . И я чувствую, что согласен с единственным ответом там. На странице Википедии также есть некоторые комментарии, но я не уверен, действительно ли я согласен со …
44 large-data 

2
Как сделать правильные выводы из «больших данных»?
«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь …

6
Размер эффекта как гипотеза для проверки значимости
Сегодня в клубе Cross Validated Journal (почему вас там не было?) @Mbq спросил: Как вы думаете, мы (современные исследователи данных) знаем, что означает значение? И как это связано с нашей уверенностью в наших результатах? @Michelle ответил так, как обычно делают некоторые (включая меня): Я нахожу концепцию значимости (основанную на p-значениях) …

5
Свободный набор данных для очень высокой размерной классификации [закрыто]
Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

3
Полиномиальная регрессия с использованием scikit-learn
Я пытаюсь использовать scikit-learn для полиномиальной регрессии. Из того, что я прочитал, полиномиальная регрессия является частным случаем линейной регрессии. Я прыгал, что, возможно, одна из обобщенных линейных моделей Scikit может быть параметризована для соответствия полиномам более высокого порядка, но я не вижу возможности сделать это. Мне удалось использовать опорный вектор-регрессор …

9
Программное обеспечение для статистики и интеллектуального анализа данных для работы с большими наборами данных
В настоящее время мне нужно проанализировать около 20 миллионов записей и построить модели прогнозирования. До сих пор я опробовал Statistica, SPSS, RapidMiner и R. Среди них Statistica кажется наиболее подходящим для работы с интеллектуальным анализом данных, а пользовательский интерфейс RapidMiner также очень удобен, но кажется, что Statistica, RapidMiner и SPSS …

1
Состояние потокового обучения
В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько: Follow-the-Regularized-Leader и зеркальный спуск: теоремы об эквивалентности и регуляризация L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Потоковое обучение: однопроходные SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: первичный оцененный суб-GrAdient SOlver для SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf или здесь: может ли …

1
Как визуализировать огромную разреженную таблицу непредвиденных обстоятельств?
У меня есть две переменные: название лекарственного средства (DN) и соответствующие нежелательные явления (AE), которые находятся в отношении многих ко многим. Есть 33 556 наименований лекарств и 9 516 побочных эффектов. Размер выборки составляет около 5,8 миллиона наблюдений. Я хочу изучить и понять связь / отношения между DN и AE. …

3
Первый шаг для больших данных ( , )
Предположим, вы анализируете огромный набор данных из миллиардов наблюдений в день, где каждое наблюдение имеет несколько тысяч разреженных и, возможно, избыточных числовых и категориальных переменных. Скажем, есть одна проблема регрессии, одна проблема неуравновешенной двоичной классификации и одна задача «выяснить, какие предикторы являются наиболее важными». Моя мысль о том, как подойти …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.