Вопросы с тегом «k-means»

k-средних - это метод разделения данных на кластеры путем нахождения определенного числа средних, k, st, когда данные назначаются для кластеров с ближайшим средним, сумма квадратов w / i-кластера минимизируется

1
Формула формулы инерции в скиките учиться
Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики разрыва без необходимости …

1
Определите неизвестное количество реальных мест из отчетов на основе GPS
Я работаю над некоторым программным обеспечением, которое должно определять местоположение в реальном мире (например, скоростные камеры) из нескольких отчетов на основе GPS . Пользователь будет управлять автомобилем при сообщении местоположения, поэтому отчеты очень неточные. Чтобы решить эту проблему, я должен сгруппировать отчеты о том же месте и вычислить среднее. Мой …

3
Выбор кластеров для k-средних: случай 1 кластера
Кто-нибудь знает хороший метод, чтобы определить, подходит ли даже кластеризация с использованием kmeans? То есть, что если ваш образец на самом деле является однородным? Я знаю, что нечто вроде смешанной модели (через mclust в R) предоставит статистику соответствия для случая кластера 1: k, но, похоже, что для всех методов оценки …
9 r  clustering  k-means 

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
Велоспорт в алгоритме k-средних
Согласно вики, наиболее широко используемый критерий конвергенции - «назначение не изменилось». Мне было интересно, может ли ехать на велосипеде, если мы используем такой критерий сходимости? Я был бы рад, если бы кто-то указал ссылку на статью, которая приводит пример езды на велосипеде или доказывает, что это невозможно.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.