Статистика и большие данные clustering

3

Можно ли использовать расстояние Манхэттена с межкластерными связями Уорда в иерархической кластеризации?

Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...] , которая генерирует иерархические кластеры с учетом следующих входных данных: матрица расстояний D название метода, используемого для определения межкластерной связи. Я рассчитал матрицу расстояний D, используя расстояние Манхэттен: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| где …

15 clustering distance-functions ward

1

Кластеризация: я должен использовать расхождение Дженсена-Шеннона или его квадрат?

Я группирую распределения вероятностей, используя алгоритм распространения сродства , и планирую использовать расхождение Дженсена-Шеннона в качестве метрики расстояния. Правильно ли использовать сам JSD в качестве расстояния или JSD в квадрате? Почему? Какие различия могут возникнуть в результате выбора одного или другого?

15 machine-learning clustering entropy distance-functions

1

Как рассчитать чистоту?

В кластерном анализе, как мы рассчитываем чистоту? Какое уравнение? Я не ищу код, чтобы сделать это для меня. Пусть - кластер k, а - класс j.ωkωk\omega_kcjcjc_j Так чистота практически точность? похоже, что суммирование действительно классифицированного класса на кластер по размеру выборки. источник уравнения Вопрос в том, какова связь между выходом …

15 clustering

3

Как построить вывод данных кластеризации?

Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более ясным. У меня есть …

15 clustering data-visualization python

1

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Дирихле Процессы кластеризации: как бороться с метками?

Вопрос: Каков стандартный способ кластеризации данных с использованием процесса Дирихле? При использовании выборочных кластеров Гиббса во время отбора проб появляются и исчезают. Кроме того, у нас есть проблема идентификации, так как апостериорное распределение инвариантно к кластерным связям. Таким образом, мы не можем сказать, кто является кластером пользователя, а скорее, что …

14 bayesian clustering mcmc dirichlet-process identifiability

2

к-значит против к-медиана?

Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать что?

14 clustering k-means

2

Как я могу сгруппировать числовые данные в естественные «скобки»? (например, доход)

Ниже описано, чего я пытаюсь достичь, но возможно, что альтернативное постановление проблемы может описать мою цель: Я хочу разделите следующие числа на группы, где дисперсии чисел в каждой группе не слишком велики, а различия между средними значениями групп не слишком малы сравните полученное в итоге распределение с «идеальным» и посмотрите, …

14 clustering relative-distribution

3

Почему мы используем k-средства вместо других алгоритмов?

Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная чувствительность к выбросам и шуму Не очень хорошо работает …

14 clustering data-mining algorithms k-means

4

Как измерить форму кластера?

Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что в двумерном и трехмерном пространстве не является …

14 unsupervised-learning clustering

3

Может ли кто-нибудь объяснить динамическое искажение времени для определения сходства временных рядов?

Я пытаюсь понять динамическое искажение времени для сравнения временных рядов вместе. У меня есть три набора данных временного ряда, как это: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, …

14 r time-series clustering

8

Каковы «горячие алгоритмы» для машинного обучения?

Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие результаты. В основном меня интересует …

14 machine-learning clustering bioinformatics

3

Метрики или для кластеризации?

Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.L2L2L_2 и утверждал, что или могут быть еще лучше.L.5L.5L_.5L.1L.1L_.1 Причины использования или могут …

14 clustering distance-functions rule-of-thumb

9

Программное обеспечение для визуализации для кластеризации

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я хочу кластеризовать ~ 22000 баллов. Многие алгоритмы кластеризации работают лучше при более высоком качестве начальных догадок. Какие существуют инструменты, которые могут …

14 data-visualization clustering software

4

Существуют ли алгоритмы кластеризации без учета расстояния?

Кажется, что для K-средних и других связанных алгоритмов кластеризация основана на расчете расстояния между точками. Есть ли тот, который работает без него?

14 machine-learning clustering data-mining k-means

Вопросы с тегом «clustering»