Вопросы с тегом «hierarchical-clustering»

3
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?
Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете и как. Кто-то может сказать: «Лучший метод …

2
Выбор правильного метода связи для иерархической кластеризации
Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m: сообщения / функции) Рассчитать матрицу …

3
Как интерпретировать дендрограмму иерархического кластерного анализа
Рассмотрим пример R ниже: plot( hclust(dist(USArrests), "ave") ) Что именно означает ось Y "Высота"? Глядя на Северную Каролину и Калифорнию (скорее слева). Калифорния "ближе" к Северной Каролине, чем Аризона? Могу ли я сделать эту интерпретацию? Гавайи (справа) присоединяются к группе довольно поздно. Я могу видеть это, поскольку это "выше" чем …

1
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)
Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1 как к d = 0. …

4
Как понять недостатки иерархической кластеризации?
Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот? Ответы на этот пост очень хорошо объясняют недостатки k средств. Как понять …

2
Кластеризация - Интуиция за теоремой Клейнберга о невозможности
Я думал о том, чтобы написать сообщение в блоге об этом интересном анализе Кляйнберга (2002), в котором исследуется сложность кластеризации. Клейнберг обрисовывает в общих чертах три, казалось бы, интуитивных требования к функции кластеризации, а затем доказывает, что такой функции не существует. Существует много алгоритмов кластеризации, которые удовлетворяют двум из трех …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?
Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы получить значимые результаты? Или, другими словами, в чем проблема …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.