Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

2
Кластеризация шумных данных или с выбросами
У меня есть шумные данные двух переменных, как это. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

1
Формула формулы инерции в скиките учиться
Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики разрыва без необходимости …

3
Выбор кластеров для k-средних: случай 1 кластера
Кто-нибудь знает хороший метод, чтобы определить, подходит ли даже кластеризация с использованием kmeans? То есть, что если ваш образец на самом деле является однородным? Я знаю, что нечто вроде смешанной модели (через mclust в R) предоставит статистику соответствия для случая кластера 1: k, но, похоже, что для всех методов оценки …
9 r  clustering  k-means 

5
Помогает ли предварительная кластеризация построить лучшую прогностическую модель?
Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных может быть различным для разных «групп». У меня вопрос, это подходящий метод? Это …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации
Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот некоторые примеры: звездные облачные данные четыре кластера, один …

4
Как количественно определить, сгруппированы ли данные 1D вокруг 1 или 3 значений?
У меня есть некоторые данные о времени между ударами сердца человека. Одним из признаков эктопических (дополнительных) ударов является то, что эти интервалы сгруппированы вокруг трех значений вместо одного. Как я могу получить количественную меру этого? Я хочу сравнить несколько наборов данных, и эти две гистограммы по 100 бинов являются репрезентативными …


2
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?
Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы получить значимые результаты? Или, другими словами, в чем проблема …

4
Кластеризация с асимметричными измерениями расстояния
Как кластеризовать объект с асимметричной мерой расстояния? Например, предположим, что вы кластеризуете набор данных с днями недели как функцией - расстояние от понедельника до пятницы не совпадает с расстоянием от пятницы до понедельника. Как вы включаете это в меру расстояния алгоритма кластеризации?

2
Плотностная пространственная кластеризация приложений с кластеризацией шума (DBSCAN) в R
Этот вопрос начинался как « Кластеризация пространственных данных в R », а теперь перешел к вопросу DBSCAN. Поскольку ответы на первый вопрос подсказали, я искал информацию о DBSCAN и прочитал несколько документов о. Новые вопросы возникли. DBSCAN требует некоторых параметров, одним из которых является «расстояние». Как мои данные являются трехмерными, …
9 r  clustering  spatial 

3
Велоспорт в алгоритме k-средних
Согласно вики, наиболее широко используемый критерий конвергенции - «назначение не изменилось». Мне было интересно, может ли ехать на велосипеде, если мы используем такой критерий сходимости? Я был бы рад, если бы кто-то указал ссылку на статью, которая приводит пример езды на велосипеде или доказывает, что это невозможно.

3
Компактная кластеризация
Большинство алгоритмов кластеризации, которые я видел, начинаются с создания расстояний между каждым из всех точек, что становится проблематичным для больших наборов данных. Есть тот, кто этого не делает? Или это какой-то частичный / приблизительный / ступенчатый подход? Какой алгоритм / реализация кластеризации занимает меньше O (n ^ 2) места? Есть …

4
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?
Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …

2
Начало работы с бикластером
Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто интересуется алгоритмами поиска бикластеров. Можно ли сказать, каков уровень техники в этой …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.