Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

3
Кластеризация вероятностных распределений - методы и метрики?
У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то в пределах экспоненциальной степени) закон (от 1 до 0, примерно).) Я собираюсь …

2
Как расстояние Гауэра вычисляет разницу между двоичными переменными?
У меня есть 17 числовых и 5 двоичных (0-1) переменных, с 73 выборками в моем наборе данных. Мне нужно запустить кластерный анализ. Я знаю, что расстояние Гауэра является хорошим показателем для наборов данных со смешанными переменными. Однако я не мог понять, как расстояние Гауэра рассчитывает разницу между двоичными переменными . …

1
К средних || aka Scalable K-Means ++
Бахман Бахмани и соавт. представил k-means ||, который является более быстрой версией k-means ++. Этот алгоритм взят из страницы 4 их работы , Бахмани Б., Мозли Б., Ваттани А., Кумар Р. и Васильвицкий С. (2012). Масштабируемое k-означает ++. Труды фонда VLDB , 5 (7), 622-633. К сожалению, я не понимаю …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?
В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для …

5
Могу ли я использовать PCA для выбора переменных для кластерного анализа?
Я должен уменьшить количество переменных, чтобы провести кластерный анализ. Мои переменные сильно коррелированы, поэтому я подумал о проведении анализа факторов риска PCA (анализ основных компонентов). Однако, если я использую полученные результаты, мои кластеры не совсем корректны (по сравнению с предыдущими классификациями в литературе). Вопрос: Могу ли я использовать матрицу вращения …

2
Кластеризация пространственных данных в R
У меня есть набор месячных данных о температуре поверхности моря (SST), и я хочу применить некоторую кластерную методологию для обнаружения регионов с подобными закономерностями SST. У меня есть набор ежемесячных файлов данных, работающих с 1985 по 2009 год, и я хочу применить кластеризацию к каждому месяцу в качестве первого шага. …
12 r  clustering  spatial 


1
Точный критерий Фишера и гипергеометрическое распределение
Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст …

2
Интерпретация результата кластеризации k-средних в R
Я использовал kmeansинструкцию R для выполнения алгоритма k-средних в наборе данных радужной оболочки глаза Андерсона. У меня есть вопрос о некоторых параметрах, которые я получил. Результаты: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 В этом случае, что означает «Кластер означает»? Это среднее расстояние всех объектов в …

1
Робастный кластерный метод для смешанных данных в R
Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних были единственными доступными вариантами. В частности, кажется, что доступны новые методы кластеризации …

3
Как я могу проверить, насколько важна моя кластеризация двоичных данных?
Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли кластеризация, которую я нахожу, значительной, или это может быть очень …

1
Присвоить веса переменным в кластерном анализе
Я хочу назначить разные веса переменным в моем кластерном анализе, но моя программа (Stata), похоже, не имеет возможности для этого, поэтому мне нужно сделать это вручную. Представьте себе 4 переменные A, B, C, D. Веса для этих переменных должны быть w(A)=50% w(B)=25% w(C)=10% w(D)=15% Мне интересно, действительно ли один из …
12 clustering  stata 

1
Что делать, если выборочная ковариационная матрица не обратима?
Я работаю над некоторыми методами кластеризации, где для данного кластера векторов d-размерности я предполагаю многомерное нормальное распределение и вычисляю выборочный средний вектор d-размерности и выборочную ковариационную матрицу. Затем, пытаясь решить, принадлежит ли новый, невидимый, d-мерный вектор этому кластеру, я проверяю его расстояние с помощью этой меры: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) Что требует от …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.