Статистика и большие данные clustering

2

Обнаружение кластеров «похожих» исходников

Предположим, у меня 400 студентов (это в большом университете), которые должны заниматься компьютерными проектами, и что они должны работать в одиночку (без группы студентов). Примером проекта может быть «реализация алгоритма быстрого преобразования Фурье в Фортране» (я знаю, это не звучит сексуально, но это упрощает мой вопрос). Я корректор, и я …

10 hypothesis-testing clustering

3

Кластеризация распределений

У меня есть несколько распределений (10 распределений на рисунке ниже). Фактически это гистограммы: на оси x имеется 70 значений, которые представляют собой размеры некоторых частиц в растворе, и для каждого значения x соответствующее значение y представляет собой долю частиц, размер которых составляет около значения x. Я хотел бы сгруппировать эти …

10 clustering

3

Как кластеризовать продольные переменные?

У меня есть куча переменных, которые содержат продольные данные от 0 до 7 дня. Я ищу подходящий подход к кластеризации, который может кластеризовать эти продольные переменные (не случаи) в разные группы. Я пытался проанализировать этот набор данных по времени, но результат было довольно сложно объяснить разумно. Я исследовал доступность процедуры …

10 clustering

2

Обнаружение круговых структур в данных облака точек

Для какого-то алгоритма реконструкции объема, над которым я работаю, мне нужно обнаружить произвольное количество круговых паттернов в данных трехмерных точек (поступающих с устройства LIDAR). Образцы могут быть произвольно ориентированы в пространстве, и предполагается, что они лежат (хотя и не идеально) в тонких двумерных плоскостях. Вот пример с двумя кругами в …

10 clustering image-processing

1

Использование пакета статистики в R для кластеризации kmeans

Мне трудно понять один или два аспекта кластерного пакета. Я внимательно следую примеру Quick-R , но не понимаю один или два аспекта анализа. Я включил код, который я использую для этого конкретного примера. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, …

10 r clustering

1

Кластерный анализ с последующим дискриминантным анализом

Каково обоснование, если таковое имеется, использования Дискриминантного анализа (DA) на результатах алгоритма кластеризации, такого как k-средних, как я вижу это время от времени в литературе (по существу, о клинических подтипах психических расстройств)? Как правило, не рекомендуется проверять групповые различия по переменным, которые использовались во время построения кластера, поскольку они поддерживают …

10 clustering discriminant-analysis

1

K-означает: сколько итераций в практических ситуациях?

У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец? Если они просто …

10 clustering data-mining k-means convergence large-data

2

Скорректированный индекс ранда против скорректированной взаимной информации

Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и наших алгоритмов кластеризации для одних и тех …

10 clustering python scikit-learn

2

Разница между PCA и спектральной кластеризацией для небольшого выборочного набора булевых функций

У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов. Я попробовал следующие два подхода: (a) Запустите PCA на матрице 50x11 и выберите …

10 clustering data-visualization pca k-means spectral-analysis

1

R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

Применение стохастического вариационного вывода к байесовской смеси Гаусса

Я пытаюсь реализовать модель гауссовой смеси со стохастическим вариационным выводом, следуя этой статье . Это программа гауссовой смеси. Согласно статье, полный алгоритм стохастического вариационного вывода: И я все еще очень запутался в методе масштабирования до GMM. Во-первых, я думал, что локальный вариационный параметр - это просто а все остальные - …

9 machine-learning bayesian clustering gaussian-mixture variational-bayes

2

Выбор функций для проблем кластеризации

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы. Там я использовал некоторый критерий (то есть random.forest.importance …

9 r clustering feature-selection unsupervised-learning

2

Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны быть в том же кластере). Каждый объект имеет ряд …

9 clustering similarities supervised-learning semi-supervised

2

Как создается график «Соединенные Штаты Reddit»?

Ниже приведен график из р. 202 из Dataclysm Кристиана Руддера , хотя это было сделано Джеймсом Доуделлом. Он иллюстрирует отношения между различными 200 верхними подразделами, которые представляют интерес на reddit.com, где пользователи могут отправлять ссылки, комментарии и голоса. Это похоже на теги на этом сайте. Размер субреддитных регионов отражает их …

9 clustering data-visualization

Вопросы с тегом «clustering»