Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

1
Выбор модели Mclust
Пакет R mclustиспользует BIC в качестве критерия выбора модели кластера. Насколько я понимаю, модель с самым низким BIC следует выбирать среди других моделей (если вы заботитесь только о BIC). Однако, когда значения BIC все отрицательные, по Mclustумолчанию используется модель с самым высоким значением BIC. Мое общее понимание от различных испытаний …

3
Работает ли модульность сети Ньюмана для взвешенных графов со знаком?
Модульность графа определяется на его странице в Википедии . В другом посте кто-то объяснил, что модульность можно легко вычислить (и максимизировать) для взвешенных сетей, поскольку матрица смежности может содержать оцененные связи. Тем не менее, я хотел бы знать, будет ли это работать со знаковыми, значимыми ребрами, например, от -10 до …

1
Разъяснение максимизации ожидания
Я нашел очень полезное руководство по алгоритму EM . Пример и картинка из урока просто великолепны. Связанный вопрос о вычислении вероятностей, как работает максимизация ожидания? У меня есть еще один вопрос относительно того, как связать теорию, описанную в руководстве, с примером. На этапе E EM выбирает функцию которая нижние границы …

1
Какова интуиция в изменении метрики информации (VI) для проверки кластера?
Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими терминами кластеризации. Ниже приведен MWE, и я хотел бы …

2
Каковы расстояния между переменными, составляющими ковариационную матрицу?
У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n × nn×nn \times nКkk Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной ковариационной матрицы)? Или, если есть еще, есть хорошая ссылка на тему?

2
Как найти группировки (траектории) среди продольных данных?
контекст Я хочу установить сцену, прежде чем немного расширить вопрос. У меня есть продольные данные, измерения проводятся на предметах примерно каждые 3 месяца, первичный результат - числовой (как в непрерывном режиме до 1 dp) в диапазоне от 5 до 14, при этом основная масса (всех точек данных) составляет от 7 …

5
SOM кластеризация для номинальных / циклических переменных
Просто интересно, знаком ли кто-нибудь с кластеризацией номинальных входов. Я рассматривал SOM как решение, но, видимо, оно работает только с числовыми функциями. Есть ли расширения для категориальных функций? В частности, мне было интересно узнать о «Днях недели» как о возможностях. Конечно, его можно преобразовать в числовую характеристику (т. Е. Пн-Вс, …

4
Есть ли случаи, когда не существует оптимального k в k-средних?
Это было в моей голове, по крайней мере, несколько часов. Я пытался найти оптимальное k для вывода из алгоритма k-средних (с метрикой косинусного сходства ), поэтому в итоге я построил график искажения как функции от числа кластеров. Мой набор данных представляет собой коллекцию из 800 документов в 600-мерном пространстве. Из …

2
Визуализация многомерных данных (БИС) в 2D
Я использую скрытое семантическое индексирование, чтобы найти сходство между документами ( спасибо, JMS! ) После уменьшения размеров я попытался использовать кластеризацию k-средних для группировки документов в кластеры, что очень хорошо работает. Но я хотел бы пойти немного дальше и визуализировать документы как набор узлов, где расстояние между любыми двумя узлами …

3
Методы инициализации кластеризации K-средних
Меня интересует текущее состояние дел с выбором исходных семян (кластерных центров) для K-средних. Поиск в Google приводит к двум популярным вариантам: случайный отбор начальных семян, и, с использованием техники отбора KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Преимущества тщательного посева Есть ли еще какие-нибудь многообещающие методы, о которых кто-либо …

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?
У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал …

3
Расстояние между двумя гауссовыми смесями для оценки кластерных решений
Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения. Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются, если предполагаемое количество кластеров фактически равно истинному количеству …

2
Как «разумно» собрать коллекцию отсортированных данных?
Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например:Nnnмmm Скажем, у меня в коллекции 12 предметов, и я знаю, что данные поместятся …

5
Кластеризация как средство разделения данных для логистической регрессии
Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы. Но я думаю, что может быть сложно определить эти группы …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.