Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

3
Кластеризация с K-Means и EM: как они связаны?
Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как связаны kmeans и EM, поскольку одно выполняет вероятностное назначение, а другое - …


3
Можно ли выполнять кластеризацию временных рядов на основе формы кривой?
У меня есть данные о продажах для ряда торговых точек, и я хочу классифицировать их в зависимости от формы их кривых с течением времени. Данные выглядят примерно так (но, очевидно, не случайны и содержат некоторые пропущенные данные): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in …

3
Интерпретация логарифмически преобразованного предиктора и / или ответа
Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
Важно ли масштабировать данные перед кластеризацией?
Я нашел это руководство , в котором предлагается запускать функцию масштабирования функций перед кластеризацией (я считаю, что она преобразует данные в z-показатели). Мне интересно, нужно ли это? Я спрашиваю в основном потому, что есть хорошая точка локтя, когда я не масштабирую данные, но она исчезает, когда она масштабируется. :)

8
Как сделать обнаружение сообщества в взвешенной социальной сети / графике?
Мне интересно, может ли кто-нибудь предложить хорошие отправные точки, когда дело доходит до обнаружения сообщества / разбиения / кластеризации графа на графе, который имеет взвешенные , ненаправленные ребра. У рассматриваемого графа приблизительно 3 миллиона ребер, и каждое ребро выражает степень сходства между двумя вершинами, которые он соединяет. В частности, в …

5
Динамическая Кластеризация Деформации Времени
Каков будет подход к использованию динамической деформации времени (DTW) для кластеризации временных рядов? Я читал о DTW как способ найти сходство между двумя временными рядами, хотя они могут быть сдвинуты во времени. Могу ли я использовать этот метод в качестве меры сходства для алгоритма кластеризации, такого как k-means?

5
Временной ряд «кластеризация» в R
У меня есть набор данных временных рядов. Каждая серия охватывает один и тот же период, хотя фактические даты в каждом временном ряду могут не совпадать точно. То есть, если бы временной ряд читался в двухмерной матрице, он бы выглядел примерно так: date T1 T2 T3 .... TN 1/1/01 100 59 …

3
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?
Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете и как. Кто-то может сказать: «Лучший метод …

2
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?
В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?

4
Как интерпретировать среднее значение силуэта?
Я пытаюсь использовать силуэт графика, чтобы определить количество кластеров в моем наборе данных. Учитывая набор данных Train , я использовал следующий код Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Результирующий график …

3
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?
В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель не может создавать полезные группировки. …

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(Почему) SOM в стиле Кохонена потерял популярность?
Насколько я могу судить, SOM в стиле Кохонена достигли пика примерно в 2005 году и в последнее время не пользовались такой большой пользой. Я не нашел ни одной статьи, в которой говорилось бы, что SOM были включены в другой метод или оказались эквивалентными чему-то другому (во всяком случае, в более …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.