Второй комментарий @suncoolsu: размерность вашего набора данных - не единственный критерий, который должен ориентировать вас на конкретное программное обеспечение. Например, если вы просто планируете проводить кластеризацию без контроля или использовать PCA, есть несколько специализированных инструментов, которые справляются с большими наборами данных, что обычно встречается в геномных исследованиях.
Теперь, R (64 бит) обрабатывает большие объемы данных довольно хорошо, и у вас еще есть возможность использовать дисковое хранилище вместо доступа к оперативной памяти, но видеть CRAN Task View High-Performance и параллельные вычисления с R . Стандартный GLM легко разместит 20 000 человек. (но см. также speedglm ) в течение разумного времени, как показано ниже:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Чтобы дать более конкретную иллюстрацию, я использовал R для обработки и анализа больших генетических данных (800 особей x 800k SNP , где основной статистической моделью был стратифицированный GLM с несколькими ковариатами (2 мин); это стало возможным благодаря эффективному R и C-коды, доступные в пакете snpMatrix (для сравнения, аналогичная модель заняла около 8 минут с использованием специального программного обеспечения C ++ ( plink ). Я также работала над клиническим исследованием (12 тыс. Пациентов х 50 переменных), и R соответствует моим потребностям И наконец, насколько мне известно, пакет lme4 - единственное программное обеспечение, которое позволяет адаптировать модель смешанных эффектов к несбалансированным и большим массивам данных (как в случае крупномасштабной образовательной оценки).
Stata / SE - это еще одна программа, которая может обрабатывать большие объемы данных . SAS и SPSS являются файловым программным обеспечением, поэтому они будут обрабатывать большие объемы данных. Сравнительный обзор программного обеспечения для анализа данных доступен в Data Mining Tools: Какой из них лучше для CRM . Для визуализации есть также много вариантов; может быть, хорошее начало - это Графика больших наборов данных: визуализация миллиона ( рассмотрена в JSS П. Мерреллом) и все связанные темы на этом сайте.