Вопросы с тегом «k-means»

k-средних - это метод разделения данных на кластеры путем нахождения определенного числа средних, k, st, когда данные назначаются для кластеров с ближайшим средним, сумма квадратов w / i-кластера минимизируется

2
Интерпретация результата кластеризации k-средних в R
Я использовал kmeansинструкцию R для выполнения алгоритма k-средних в наборе данных радужной оболочки глаза Андерсона. У меня есть вопрос о некоторых параметрах, которые я получил. Результаты: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 В этом случае, что означает «Кластер означает»? Это среднее расстояние всех объектов в …


4
Есть ли случаи, когда не существует оптимального k в k-средних?
Это было в моей голове, по крайней мере, несколько часов. Я пытался найти оптимальное k для вывода из алгоритма k-средних (с метрикой косинусного сходства ), поэтому в итоге я построил график искажения как функции от числа кластеров. Мой набор данных представляет собой коллекцию из 800 документов в 600-мерном пространстве. Из …

3
Методы инициализации кластеризации K-средних
Меня интересует текущее состояние дел с выбором исходных семян (кластерных центров) для K-средних. Поиск в Google приводит к двум популярным вариантам: случайный отбор начальных семян, и, с использованием техники отбора KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Преимущества тщательного посева Есть ли еще какие-нибудь многообещающие методы, о которых кто-либо …

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?
У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал …

2
Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)
Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних. Хорошо, вы говорите, просто преобразуйте переменные, используя квадратный корень, блок-кокс или логарифм. Но так …

3
Пример, в котором выходные данные алгоритма k-medoid отличаются от выходных данных алгоритма k-средних
Я понимаю разницу между K Medoid и K означает. Но можете ли вы привести пример с небольшим набором данных, в котором выходной сигнал k medoid отличается от выходного сигнала k означает?

3
K-среднее по косинусу сходства против евклидова расстояния (LSA)
Я использую скрытый семантический анализ для представления совокупности документов в пространстве меньшего размера. Я хочу сгруппировать эти документы в две группы с помощью k-средних. Несколько лет назад я сделал это с помощью gensim Python и написал свой собственный алгоритм k-средних. Я определил кластерные центроиды, используя евклидово расстояние, но затем сгруппировал …

3
Присвоение меток классов кластерам k-средних
У меня есть очень простой вопрос о кластеризации. После того, как я нашел k кластеров с их центроидами, как мне интерпретировать классы точек данных, которые я кластеризовал (назначая значимые метки классов каждому кластеру). Я не говорю о проверке найденных кластеров. Можно ли это сделать с помощью небольшого набора точек данных, …
10 k-means 

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
K-означает: сколько итераций в практических ситуациях?
У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец? Если они просто …

2
Разница между PCA и спектральной кластеризацией для небольшого выборочного набора булевых функций
У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов. Я попробовал следующие два подхода: (a) Запустите PCA на матрице 50x11 и выберите …

1
Оптимальное количество компонентов в гауссовой смеси
Таким образом, получение «идеи» об оптимальном количестве кластеров в k-средних хорошо документировано. Я нашел статью о том, как сделать это в гауссовых смесях, но не уверен, что меня это убедило, я не очень хорошо понимаю. Есть ли ... более мягкий способ сделать это?

2
Понимание этого PCA графика продаж мороженого в зависимости от температуры
Я беру фиктивные данные о температуре и продажах мороженого и классифицирую их по K-средним (n кластеров = 2), чтобы выделить 2 категории (полностью фиктивные). Сейчас я делаю анализ основных компонентов этих данных, и моя цель - понять, что я вижу. Я знаю, что цель PCA состоит в том, чтобы уменьшить …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.