Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

2
Обнаружение кластеров «похожих» исходников
Предположим, у меня 400 студентов (это в большом университете), которые должны заниматься компьютерными проектами, и что они должны работать в одиночку (без группы студентов). Примером проекта может быть «реализация алгоритма быстрого преобразования Фурье в Фортране» (я знаю, это не звучит сексуально, но это упрощает мой вопрос). Я корректор, и я …

3
Кластеризация распределений
У меня есть несколько распределений (10 распределений на рисунке ниже). Фактически это гистограммы: на оси x имеется 70 значений, которые представляют собой размеры некоторых частиц в растворе, и для каждого значения x соответствующее значение y представляет собой долю частиц, размер которых составляет около значения x. Я хотел бы сгруппировать эти …
10 clustering 

3
Как кластеризовать продольные переменные?
У меня есть куча переменных, которые содержат продольные данные от 0 до 7 дня. Я ищу подходящий подход к кластеризации, который может кластеризовать эти продольные переменные (не случаи) в разные группы. Я пытался проанализировать этот набор данных по времени, но результат было довольно сложно объяснить разумно. Я исследовал доступность процедуры …
10 clustering 

2
Обнаружение круговых структур в данных облака точек
Для какого-то алгоритма реконструкции объема, над которым я работаю, мне нужно обнаружить произвольное количество круговых паттернов в данных трехмерных точек (поступающих с устройства LIDAR). Образцы могут быть произвольно ориентированы в пространстве, и предполагается, что они лежат (хотя и не идеально) в тонких двумерных плоскостях. Вот пример с двумя кругами в …

1
Использование пакета статистики в R для кластеризации kmeans
Мне трудно понять один или два аспекта кластерного пакета. Я внимательно следую примеру Quick-R , но не понимаю один или два аспекта анализа. Я включил код, который я использую для этого конкретного примера. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, …
10 r  clustering 

1
Кластерный анализ с последующим дискриминантным анализом
Каково обоснование, если таковое имеется, использования Дискриминантного анализа (DA) на результатах алгоритма кластеризации, такого как k-средних, как я вижу это время от времени в литературе (по существу, о клинических подтипах психических расстройств)? Как правило, не рекомендуется проверять групповые различия по переменным, которые использовались во время построения кластера, поскольку они поддерживают …

1
K-означает: сколько итераций в практических ситуациях?
У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец? Если они просто …

2
Скорректированный индекс ранда против скорректированной взаимной информации
Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и наших алгоритмов кластеризации для одних и тех …

2
Разница между PCA и спектральной кластеризацией для небольшого выборочного набора булевых функций
У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов. Я попробовал следующие два подхода: (a) Запустите PCA на матрице 50x11 и выберите …

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими
Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Применение стохастического вариационного вывода к байесовской смеси Гаусса
Я пытаюсь реализовать модель гауссовой смеси со стохастическим вариационным выводом, следуя этой статье . Это программа гауссовой смеси. Согласно статье, полный алгоритм стохастического вариационного вывода: И я все еще очень запутался в методе масштабирования до GMM. Во-первых, я думал, что локальный вариационный параметр - это просто а все остальные - …

2
Выбор функций для проблем кластеризации
Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы. Там я использовал некоторый критерий (то есть random.forest.importance …

2
Как найти веса для меры диссимилиарности
Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны быть в том же кластере). Каждый объект имеет ряд …

2
Как создается график «Соединенные Штаты Reddit»?
Ниже приведен график из р. 202 из Dataclysm Кристиана Руддера , хотя это было сделано Джеймсом Доуделлом. Он иллюстрирует отношения между различными 200 верхними подразделами, которые представляют интерес на reddit.com, где пользователи могут отправлять ссылки, комментарии и голоса. Это похоже на теги на этом сайте. Размер субреддитных регионов отражает их …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.