Вопросы с тегом «k-means»

k-средних - это метод разделения данных на кластеры путем нахождения определенного числа средних, k, st, когда данные назначаются для кластеров с ближайшим средним, сумма квадратов w / i-кластера минимизируется

2
к-значит против к-медиана?
Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать что?

2
Почему k-means не оптимизировано с использованием градиентного спуска?
Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не смог получить ответ на свой вопрос. Итак, …

3
Почему мы используем k-средства вместо других алгоритмов?
Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная чувствительность к выбросам и шуму Не очень хорошо работает …


3
Соответствие ANOVA после кластерного анализа k-средних
Уведомление после таблицы ANOVA после анализа K-средних указывает на то, что уровни значимости не следует рассматривать как критерий равных средних, поскольку кластерное решение было получено на основе евклидова расстояния для максимизации расстояния. Какой тест я должен использовать, чтобы показать, отличаются ли средства переменных кластеризации между кластерами? Я видел это предупреждение …
14 anova  k-means 

2
Есть ли функция в R, которая берет центры кластеров, которые были найдены, и назначает кластеры для нового набора данных
У меня есть две части многомерного набора данных, давайте назовем их trainи test. И я хочу построить модель, основанную на наборе данных поезда, а затем проверить ее на наборе тестовых данных. Количество кластеров известно. Я попытался применить кластеризацию k-средних в R, и я получил объект, который содержит центры кластеров: kClust …
14 r  clustering  k-means 

4
Реализация k-средних с пользовательской матрицей расстояний на входе
Может кто-нибудь указать мне реализацию k-средних (было бы лучше, если бы в Matlab), который может принимать матрицу расстояний на входе? Для стандартной реализации Matlab требуется матрица наблюдения на входе, и пользовательское изменение меры подобия невозможно.

5
Как я могу преобразовать расстояние (евклидово) в показатель сходства
Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это расстояние в [0,1][0,1][0,1] сходство. Пожалуйста, объясните мне, как я могу этого достичь.

4
Инициализация K-средних центров с помощью случайных подвыборок набора данных?
Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее значение каждой из этих 5 случайных выборок и использовать эти …

4
Что вы делаете, когда нет точки локтя для кластеризации kmeans?
Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?

2
Использование BIC для оценки количества k в KMEANS
В настоящее время я пытаюсь вычислить BIC для моего игрушечного набора данных (ofc iris (:). Я хочу воспроизвести результаты, как показано здесь (Рис. 5). Этот документ также является моим источником для формул BIC. У меня есть 2 проблемы с этим: Обозначения: ninin_i я = количество элементов в кластереiii CiCiC_i я …

3
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?
Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных составляет 100% для каждого клиента. …

3
Кластеризация вероятностных распределений - методы и метрики?
У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то в пределах экспоненциальной степени) закон (от 1 до 0, примерно).) Я собираюсь …

1
К средних || aka Scalable K-Means ++
Бахман Бахмани и соавт. представил k-means ||, который является более быстрой версией k-means ++. Этот алгоритм взят из страницы 4 их работы , Бахмани Б., Мозли Б., Ваттани А., Кумар Р. и Васильвицкий С. (2012). Масштабируемое k-означает ++. Труды фонда VLDB , 5 (7), 622-633. К сожалению, я не понимаю …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.