Вопросы с тегом «large-data»

«Большие данные» относятся к ситуациям, когда количество наблюдений (точек данных) настолько велико, что требует изменений в том, как аналитик данных думает или проводит анализ. (Не путать с «высокой размерностью».)

1
Проверка большого набора данных на нормальность - как и насколько это надежно?
Я изучаю часть моего набора данных, содержащую 46840 двойных значений в диапазоне от 1 до 1690, сгруппированных в две группы. Чтобы проанализировать различия между этими группами, я начал с изучения распределения значений, чтобы выбрать правильный тест. Следуя руководству по тестированию на нормальность, я сделал qqplot, гистограмму и boxplot. Это не …

4
Проверка гипотез с большими данными
Как вы выполняете проверки гипотез с большими данными? Я написал следующий скрипт MATLAB, чтобы подчеркнуть мою путаницу. Все, что он делает, это генерирует два случайных ряда и запускает простую линейную регрессию одной переменной с другой. Он выполняет эту регрессию несколько раз, используя разные случайные значения и сообщает средние значения. Как …

1
Когда я должен прекратить искать модель?
Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015). Цена / день Это в день на один год. У меня это по часам на 5 лет. Пример …

1
Обработка больших наборов данных в R - руководства, лучшие практики и т. Д.
Я R noob, который должен выполнять различные виды анализа больших наборов данных в R. Поэтому, просматривая этот сайт и другие места, мне показалось, что здесь есть много эзотерических и менее известных проблем, таких как какой пакет использовать, когда, какие преобразования (не) применяются к данным и т. д. Мне просто интересно, …
11 r  large-data 

1
Возможна ли крупномасштабная PCA?
Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная матрица является разреженной, центрированная матрица теперь будет более разреженной и, …

3
Сравнение вложенных бинарных моделей логистической регрессии, когда большое
Чтобы лучше задать мой вопрос, я предоставил некоторые из выводов как из 16 переменных моделей ( fit), так и из 17 переменных моделей ( fit2) ниже (все предикторные переменные в этих моделях являются непрерывными, где единственное различие между этими моделями состоит в том, fitчто содержит переменную 17 (var17)): fit Model …

2
Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности?
Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности? На мой взгляд, ответ - нет, поскольку мы можем точно рассчитать истинные значения параметров. Но тогда, какова максимальная доля данных от первоначального населения, которая позволяет нам использовать вышеупомянутые методы?

3
Как просматривать данные больших временных рядов в интерактивном режиме?
Я часто имею дело с разумным размером данных временных рядов, 50-200 миллионов удваивается с соответствующими временными метками и хотел бы динамически их визуализировать. Существует ли существующее программное обеспечение для этого? Как насчет библиотек и форматов данных? Zoom-кеш - один из примеров библиотеки, ориентированной на большие временные ряды. В Zoom-кэше данные …

3
Подходит при обучении из огромных наборов данных?
По сути, есть два распространенных способа обучения на огромных наборах данных (когда вы сталкиваетесь с ограничениями времени / пространства): Обман :) - используйте только «управляемое» подмножество для обучения. Потеря точности может быть незначительной из-за закона убывающей отдачи - прогностическая эффективность модели часто выравнивается задолго до того, как все обучающие данные …

1
Работа с очень большими наборами данных временных рядов
У меня есть доступ к очень большому набору данных. Данные взяты из записей MEG людей, слушающих музыкальные отрывки из одного из четырех жанров. Данные следующие: 6 предметов 3 экспериментальных повторения (эпохи) 120 испытаний за эпоху 8 секунд данных на испытание при 500 Гц (= 4000 отсчетов) по 275 каналам MEG …

1
K-означает: сколько итераций в практических ситуациях?
У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец? Если они просто …

2
Гауссовская регрессия процесса для наборов данных больших размеров
Просто хотел посмотреть, есть ли у кого-нибудь опыт применения Гауссовой регрессии процессов (GPR) к многомерным наборам данных. Я изучаю некоторые из различных методов разреженного георадара (например, разреженных псевдо-входов георадара), чтобы увидеть, что может работать для наборов данных большого размера, где в идеале выбор объектов является частью процесса выбора параметров. Любые …

2
Масштабируемое уменьшение размера
Учитывая постоянное число функций, t-SNE Барнса-Хата имеет сложность , случайные проекции и PCA имеют сложность что делает их «доступными» для очень больших наборов данных.O ( n logн )О(Nжурнал⁡N)O(n\log n)O ( n )О(N)O(n) С другой стороны, методы, основанные на многомерном масштабировании, имеют сложность .O ( n2)О(N2)O(n^2) Существуют ли другие методы уменьшения …

6
Какие алгоритмы машинного обучения можно масштабировать с помощью hadoop / map-Reduce
Масштабируемые алгоритмы машинного обучения в наши дни кажутся шумом. Каждая компания обрабатывает только большие данные . Существует ли учебник, в котором обсуждается, какие алгоритмы машинного обучения можно масштабировать с помощью параллельных архитектур, таких как Map-Reduce, а какие - нет? Или какие-то соответствующие документы?

2
Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей
Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.