Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

4
Как вы тестируете реализацию k-средних?
Отказ от ответственности: я разместил этот вопрос на Stackoverflow, но я подумал, что это лучше подходит для этой платформы. Как вы тестируете свою собственную реализацию k-средних для многомерных наборов данных? Я думал о том, чтобы запустить уже существующую реализацию (то есть Matlab) для данных и сравнить результаты с моим алгоритмом. …

2
Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)
Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних. Хорошо, вы говорите, просто преобразуйте переменные, используя квадратный корень, блок-кокс или логарифм. Но так …

1
Как автоматически кластеризовать U-Matrix?
После тренировки самоорганизующейся карты можно рассчитать U-матрицу . Существуют некоторые инструменты для ручной визуализации и идентификации кластеров, но мне интересно, есть ли какой-нибудь алгоритм для автоматического выполнения этого процесса (то есть, когда человек не смотрит на рисунок для идентификации кластеров). Есть какой-либо способ сделать это? Я пишу свой код на …

3
Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?
Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в двоичные переменные (т. Е. Героин равен 1, если наркоман злоупотребляет героином, иначе …

1
Понимание использования логарифмов в логарифме TF-IDF
Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще. С этой точки зрения …

3
Подход и пример кластеризации графов в «R»
Я ищу, чтобы сгруппировать / объединить узлы в графе, используя кластеризацию графа в 'r'. Вот потрясающе игрушечный вариант моей проблемы. Есть два "кластера" Существует «мост», соединяющий кластеры Вот сеть-кандидат: Когда я смотрю на расстояние соединения, "hopcount", если хотите, то я могу получить следующую матрицу: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), …

1
Как я должен интерпретировать статистику GAP?
Я использовал статистику GAP для оценки k кластеров в R. Однако я не уверен, правильно ли я ее интерпретирую. Из приведенного выше графика я предполагаю, что я должен использовать 3 кластера. Из второго сюжета я должен выбрать 6 кластеров. Это правильная интерпретация статистики GAP? Буду благодарен за любое объяснение.
10 clustering 


2
PyMC для непараметрической кластеризации: процесс Дирихле для оценки параметров гауссовой смеси не кластеризуется
Настройка проблемы Одной из первых игрушечных проблем, к которой я хотел применить PyMC, является непараметрическая кластеризация: с учетом некоторых данных смоделируйте их как гауссову смесь и узнайте количество кластеров, а также среднее значение и ковариацию каждого кластера. Большая часть того, что я знаю об этом методе, взята из видео-лекций Майкла …

3
Как получить доверительный интервал по изменению r-квадрата населения
Ради простого примера предположим, что есть две модели линейной регрессии Модель 1 имеет три предсказатели, x1a, x2b, иx2c Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и для Модели 2. Инкрементная дисперсия, объясненная Моделью …

2
Нахождение известного числа центров окружностей, которые максимизируют количество точек на фиксированном расстоянии
У меня есть набор двумерных данных, где я хочу найти центры с указанным количеством центров окружностей ( ), которые максимизируют общее количество точек на указанном расстоянии ( ).RNNNрRR например, у меня есть 10000 точек данных и я хочу найти центры из окружностей, которые захватывают как можно больше точек в радиусе …
10 r  clustering  distance 

1
Означает ли низкая ширина силуэта, что данные имеют небольшую базовую структуру?
Я новичок в анализе последовательности, и мне было интересно, как вы реагируете, если средняя ширина силуэта (ASW) из кластерного анализа матриц различий на основе оптимального соответствия является низкой (около 25). Представляется ли целесообразным заключить, что существует небольшая базовая структура, которая позволила бы кластеризовать последовательности? Можете ли вы игнорировать низкий ASW, …

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Оценка кластеров цепей Маркова первого порядка
Я сгруппировал свой набор данных из нескольких тысяч цепей Маркова первого порядка примерно в 10 кластеров. Есть ли какой-нибудь рекомендуемый способ, как я могу оценить эти кластеры и выяснить, какие элементы в кластерах совместно используются и как они отличаются от других кластеров? Таким образом, я могу сделать заявление типа «Процессы …

1
О копенетической корреляции для кластеризации дендрограмм
Рассмотрим контекст кластеризации дендрограмм. Давайте назовем оригинальные различия расстояниями между людьми. После построения дендрограммы мы определяем копенетическое различие между двумя индивидами как расстояние между кластерами, к которым эти индивиды принадлежат. Некоторые люди считают, что корреляция между исходными различиями и копенетическими различиями (так называемая копенетическая корреляция ) является «индексом пригодности» классификации. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.