Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

3
Можно ли использовать расстояние Манхэттена с межкластерными связями Уорда в иерархической кластеризации?
Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...] , которая генерирует иерархические кластеры с учетом следующих входных данных: матрица расстояний D название метода, используемого для определения межкластерной связи. Я рассчитал матрицу расстояний D, используя расстояние Манхэттен: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| где …

1
Кластеризация: я должен использовать расхождение Дженсена-Шеннона или его квадрат?
Я группирую распределения вероятностей, используя алгоритм распространения сродства , и планирую использовать расхождение Дженсена-Шеннона в качестве метрики расстояния. Правильно ли использовать сам JSD в качестве расстояния или JSD в квадрате? Почему? Какие различия могут возникнуть в результате выбора одного или другого?

1
Как рассчитать чистоту?
В кластерном анализе, как мы рассчитываем чистоту? Какое уравнение? Я не ищу код, чтобы сделать это для меня. Пусть - кластер k, а - класс j.ωkωk\omega_kcjcjc_j Так чистота практически точность? похоже, что суммирование действительно классифицированного класса на кластер по размеру выборки. источник уравнения Вопрос в том, какова связь между выходом …
15 clustering 

3
Как построить вывод данных кластеризации?
Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более ясным. У меня есть …

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

2
Дирихле Процессы кластеризации: как бороться с метками?
Вопрос: Каков стандартный способ кластеризации данных с использованием процесса Дирихле? При использовании выборочных кластеров Гиббса во время отбора проб появляются и исчезают. Кроме того, у нас есть проблема идентификации, так как апостериорное распределение инвариантно к кластерным связям. Таким образом, мы не можем сказать, кто является кластером пользователя, а скорее, что …

2
к-значит против к-медиана?
Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать что?

2
Как я могу сгруппировать числовые данные в естественные «скобки»? (например, доход)
Ниже описано, чего я пытаюсь достичь, но возможно, что альтернативное постановление проблемы может описать мою цель: Я хочу разделите следующие числа на группы, где дисперсии чисел в каждой группе не слишком велики, а различия между средними значениями групп не слишком малы сравните полученное в итоге распределение с «идеальным» и посмотрите, …

3
Почему мы используем k-средства вместо других алгоритмов?
Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная чувствительность к выбросам и шуму Не очень хорошо работает …

4
Как измерить форму кластера?
Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что в двумерном и трехмерном пространстве не является …

3
Может ли кто-нибудь объяснить динамическое искажение времени для определения сходства временных рядов?
Я пытаюсь понять динамическое искажение времени для сравнения временных рядов вместе. У меня есть три набора данных временного ряда, как это: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, …

8
Каковы «горячие алгоритмы» для машинного обучения?
Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие результаты. В основном меня интересует …

3
Метрики или для кластеризации?
Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.L2L2L_2 и утверждал, что или могут быть еще лучше.L.5L.5L_.5L.1L.1L_.1 Причины использования или могут …

9
Программное обеспечение для визуализации для кластеризации
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я хочу кластеризовать ~ 22000 баллов. Многие алгоритмы кластеризации работают лучше при более высоком качестве начальных догадок. Какие существуют инструменты, которые могут …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.