Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

1
Процедура выбора eps и minPts для DBSCAN
DBSCAN - наиболее цитируемый алгоритм кластеризации, согласно некоторым литературным источникам, и он может найти кластеры произвольной формы на основе плотности. У него есть два параметра eps (как радиус окрестности) и minPts (как минимальные соседи, рассматривающие точку как точку ядра), которые, я считаю, сильно зависят от них. Есть ли какой-либо рутинный …

2
Есть ли функция в R, которая берет центры кластеров, которые были найдены, и назначает кластеры для нового набора данных
У меня есть две части многомерного набора данных, давайте назовем их trainи test. И я хочу построить модель, основанную на наборе данных поезда, а затем проверить ее на наборе тестовых данных. Количество кластеров известно. Я попытался применить кластеризацию k-средних в R, и я получил объект, который содержит центры кластеров: kClust …
14 r  clustering  k-means 

4
Реализация k-средних с пользовательской матрицей расстояний на входе
Может кто-нибудь указать мне реализацию k-средних (было бы лучше, если бы в Matlab), который может принимать матрицу расстояний на входе? Для стандартной реализации Matlab требуется матрица наблюдения на входе, и пользовательское изменение меры подобия невозможно.

5
Кластеризация (k-означает или иным образом) с ограничением минимального размера кластера
Мне нужно объединить единицы в кластеров, чтобы минимизировать сумму квадратов внутри группы (WSS), но мне нужно убедиться, что каждый из кластеров содержит не менее единиц. Любая идея, если какая-либо из функций кластеризации R позволяет кластеризовать в кластеров с учетом ограничения минимального размера кластера? Кажется, kmeans () не предлагает опцию ограничения …
14 r  clustering 

5
Как я могу преобразовать расстояние (евклидово) в показатель сходства
Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это расстояние в [0,1][0,1][0,1] сходство. Пожалуйста, объясните мне, как я могу этого достичь.

1
Современное состояние дедупликации
Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное обеспечение, реализующее методы. Я знаю, например, что Mahout реализует кластеризацию навеса . Также …

3
Кластер больших данных в R и имеет ли значение выборка?
Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

5
Подходящие методы кластеризации для временных данных?
У меня есть временные данные частот активности. Я хочу идентифицировать кластеры в данных, которые указывают различные периоды времени с подобными уровнями активности. В идеале я хочу идентифицировать кластеры без указания количества кластеров априори. Каковы подходящие методы кластеризации? Если в моем вопросе недостаточно информации, чтобы ответить, какую информацию мне нужно предоставить …

4
Инициализация K-средних центров с помощью случайных подвыборок набора данных?
Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее значение каждой из этих 5 случайных выборок и использовать эти …

2
Использование теста статистической значимости для проверки результатов кластерного анализа
Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008) « О некоторых тестах значимости в кластерном анализе », Бок (1985) Но …

2
Понимание сравнений результатов кластеризации
Я экспериментирую с классификацией данных по группам. Я довольно новичок в этой теме, и пытаюсь понять вывод некоторых из анализа. Используя примеры из Quick-R , предлагается несколько Rпакетов. Я попытался использовать два из этих пакетов ( fpcс помощью kmeansфункции и mclust). Один из аспектов этого анализа, который я не понимаю, …
13 r  clustering 

1
LARS против координатного спуска для лассо
Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

4
Выполняется ли неравенство треугольника для этих корреляционных расстояний?
Для иерархической кластеризации я часто вижу следующие две «метрики» (они точно не говорят) для измерения расстояния между двумя случайными переменными XXX и YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} ли либо выполнить неравенство треугольника? Если так, то как мне доказать это, кроме как просто делать …

4
Что вы делаете, когда нет точки локтя для кластеризации kmeans?
Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?

3
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?
Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных составляет 100% для каждого клиента. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.