Вопросы с тегом «large-data»

«Большие данные» относятся к ситуациям, когда количество наблюдений (точек данных) настолько велико, что требует изменений в том, как аналитик данных думает или проводит анализ. (Не путать с «высокой размерностью».)

4
Как спроецировать новый вектор на пространство PCA?
После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Действительно ли мы проводим многомерный регрессионный анализ с * миллионами * коэффициентов / независимых переменных?
Я провожу некоторое время, изучая машинное обучение (извините за рекурсию :), и я не мог не заинтриговать эмпирическое правило выбора градиентного спуска вместо прямого решения уравнений для вычисления коэффициентов регрессии, в случае многомерной линейной регрессии. 10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 В вычислительном отношении, я …

6
Опции анализа неосновных данных
Я профессионально использую SAS около 5 лет. Он установлен на моем ноутбуке, и мне часто приходится анализировать наборы данных с 1000-2000 переменных и сотнями тысяч наблюдений. Я искал альтернативы SAS, которые позволили бы мне проводить анализ наборов данных аналогичного размера. Мне любопытно, что другие люди используют для таких ситуаций, как …
18 r  sas  large-data 

5
Пуассоновская регрессия с большими данными: неправильно ли менять единицу измерения?
Из-за факториала в распределении Пуассона становится непрактичным оценивать модели Пуассона (например, с использованием максимальной вероятности), когда наблюдения велики. Так, например, если я пытаюсь оценить модель для объяснения количества самоубийств в конкретном году (доступны только годовые данные) и скажу, что каждый год совершаются тысячи самоубийств, неправильно ли выражать самоубийства сотнями , …

5
Онлайн алгоритм для среднего абсолютного отклонения и большого набора данных
У меня есть небольшая проблема, которая заставляет меня волноваться. Я должен написать процедуру для онлайн-процесса приобретения многомерного временного ряда. На каждом временном интервале (например, 1 секунда) я получаю новую выборку, которая в основном представляет собой вектор с плавающей запятой размера N. Операция, которую мне нужно сделать, немного сложнее: Для каждого …

4
Как я могу улучшить свой анализ влияния репутации на голосование?
Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике. Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и игнорировать других): В своем нынешнем воплощении я не …

5
Хороший способ показать много данных в графическом виде
Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения графиков. Я уже вижу, что в …

4
Доверительные интервалы, когда размер выборки очень большой
Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему. Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я заинтересовался оценкой доли пациентов, принимающих конкретное лекарство. Получить эту …

3
Как моделировать большие продольные данные?
Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 мы можем предположить случайный перехват или …

3
Кластер больших данных в R и имеет ли значение выборка?
Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

5
Почему градиентный спуск неэффективен для большого набора данных?
Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным? Напомним, что шаг градиентного спуска в момент времени определяется как:Ttt …

1
Может ли опорная векторная машина использоваться в больших данных?
Имея ограниченные знания о SVM, он подходит для короткой и полной матрицы данных (много функций и не слишком много экземпляров), но не для больших данных.ИксXX Я понимаю, что одной из причин является то, что матрица ядра - это матрица n × n, где n - количество экземпляров в данных. Если …

3
Как запустить линейную регрессию в параллельном / распределенном режиме для настройки больших данных?
Я работаю над очень большой проблемой линейной регрессии, когда размер данных настолько велик, что их нужно хранить на кластере машин. Он будет слишком большим, чтобы объединить все образцы в память одного компьютера (даже диска). Чтобы выполнить регрессию этих данных, я думаю о параллельном подходе, т.е. запустить регрессию для каждого отдельного …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Пригодность для очень больших размеров выборки
Я собираю очень большие выборки (> 1 000 000) категориальных данных каждый день и хочу, чтобы данные выглядели «существенно» по-разному в разные дни, чтобы обнаружить ошибки в сборе данных. Я подумал, что для этого пригодится тест на пригодность (в частности, G-тест). Ожидаемое распределение дается распределением предыдущего дня. Но, поскольку мои …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.