Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

2
Непараметрический байесовский анализ в R
Я ищу хороший учебник по кластеризации данных при Rиспользовании иерархического процесса Дирихле (HDP) (один из последних и популярных непараметрических байесовских методов). Существует DPpackage(ИМХО, самый полный из всех доступных) Rдля непараметрического байесовского анализа. Но я не могу понять примеры, приведенные в R Newsсправочном руководстве или в пакете, достаточно хорошо, чтобы кодировать …

1
Jenks Natural Breaks в Python: как найти оптимальное количество перерывов?
Я нашел эту реализацию Python в Дженкс Natural Breaks алгоритма , и я мог бы сделать его запустить на моем компьютере Windows 7. Это довольно быстро, и он находит разрывы за короткое время, учитывая размер моих геоданных. Прежде чем использовать этот алгоритм кластеризации для моих данных, я использовал sklearn.clustering.KMeans (здесь) …


5
Почему k-means не дает глобального минимума?
Я читал, что алгоритм k-средних сходится только к локальному минимуму, а не к глобальному минимуму. Почему это? Я могу логически подумать о том, как инициализация может повлиять на окончательную кластеризацию, и есть вероятность неоптимальной кластеризации, но я не нашел ничего, что математически доказало бы это. Кроме того, почему k-означает итеративный …

4
Методы кластеризации, которые не требуют предварительного указания количества кластеров
Существуют ли какие-либо «непараметрические» методы кластеризации, для которых нам не нужно указывать количество кластеров? И другие параметры, такие как количество точек на кластер и т. Д.
17 clustering 

3
Какой алгоритм реализует ward.D в hclust (), если он не является критерием Ward?
Тот, который используется опцией «ward.D» (эквивалентно единственной опции «Ward» в версиях R <= 3.0.3), не реализует критерий кластеризации Ward (1963), тогда как опция «ward.D2» реализует этот критерий ( Муртах и ​​Лежандр 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Очевидно, ward.D не выполняет критерий Уорда должным образом. Тем не менее, похоже, что он хорошо …
16 r  clustering  ward 

4
Кластеризация 1D данных
У меня есть набор данных, я хочу создать кластеры на этих данных на основе только одной переменной (нет пропущенных значений). Я хочу создать 3 кластера на основе этой одной переменной. Какой алгоритм кластеризации использовать, k-means, EM, DBSCAN и т. Д.? Мой главный вопрос заключается в том, при каких обстоятельствах я …
16 clustering 

2
Когда мы объединяем уменьшение размерности с кластеризацией?
Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический анализ) для получения матриц U, S, Vt, выбрал подходящий порог с использованием графика осей и применил …

4
Допущения кластерного анализа
Извиняюсь за рудиментарный вопрос, я новичок в этой форме анализа и до сих пор очень ограниченно понимаю принципы. Мне просто интересно, применяются ли многие параметрические допущения для многомерных / одномерных тестов для кластерного анализа? Многие источники информации, которые я читал относительно кластерного анализа, не содержат каких-либо предположений. Я особенно заинтересован …

2
Что такое хороший метод для кластеризации коротких текстов?
Я работаю над проблемой кластеризации текста. Данные содержат несколько предложений. Есть хороший алгоритм, который достигает высокой точности на коротком тексте? Можете ли вы предоставить хорошие ссылки? Алгоритмы, такие как KMeans, спектральная кластеризация не работают хорошо для этой проблемы.

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?
Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных рукописных заметок, но я совершенно новичок в анализе и кластеризации текстов, например, …

2
Как подобрать модель смеси для кластеризации
У меня есть две переменные - X и Y, и мне нужно сделать кластер максимальным (и оптимальным) = 5. Давайте идеальный график переменных выглядит следующим образом: Я хотел бы сделать 5 кластеров из этого. Что-то вроде этого: Таким образом, я думаю, что это смешанная модель с 5 кластерами. Каждый кластер …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Временные ряды и обнаружение аномалий
Я хотел бы настроить алгоритм обнаружения аномалии во временных рядах, и я планирую использовать для этого кластеризацию. Почему я должен использовать матрицу расстояний для кластеризации, а не необработанные данные временных рядов ?, Для обнаружения аномалии я буду использовать кластеризацию на основе плотности, алгоритм как DBscan, так будет ли это работать …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.