Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

4
Кластеризация корреляционной матрицы
У меня есть корреляционная матрица, в которой указано, как каждый элемент соотносится с другим элементом. Следовательно, для N элементов у меня уже есть N * N корреляционная матрица. Используя эту корреляционную матрицу, как кластеризовать N элементов в M бинах, чтобы я мог сказать, что Nk элементов в k-ом бине ведут …

5
Есть ли R-функция, которая будет вычислять матрицу косинусных различий? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Я хотел бы сделать тепловую карту с кластеризацией строк на основе косинусных расстояний. Я использую R и heatmap.2()для создания фигуры. …

3
Причина нормализации в евклидовых мерах расстояния в иерархической кластеризации
Очевидно, что в иерархической кластеризации, в которой мерой расстояния является евклидово расстояние, данные должны быть сначала нормализованы или стандартизированы, чтобы предотвратить кластеризацию с помощью ковариации с наибольшей дисперсией. Почему это? Разве этот факт не желателен?

8
Кластеризация данных смешанного типа с помощью R
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Интересно, можно ли в R выполнить кластеризацию данных, имеющих смешанные переменные данных? Другими словами, у меня есть набор данных, содержащий как числовые, …


4
Могут ли быть кластеры с категориальными данными без связанных переменных?
Пытаясь объяснить кластерный анализ, люди часто неправильно понимают процесс как связанный с тем, связаны ли переменные. Один из способов избавить людей от этой путаницы - это заговор, подобный этому: Это ясно показывает разницу между вопросом о наличии кластеров и вопросом о том, связаны ли переменные. Однако это только иллюстрирует различие …

4
Как понять недостатки иерархической кластеризации?
Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот? Ответы на этот пост очень хорошо объясняют недостатки k средств. Как понять …


3
Почему статистика разрыва для k-средних предполагает один кластер, хотя, очевидно, их два?
Я использую K-средства для кластеризации своих данных и искал способ предложить «оптимальный» номер кластера. Статистика зазоров, кажется, является распространенным способом найти хороший номер кластера. По некоторым причинам он возвращает 1 в качестве оптимального номера кластера, но когда я смотрю на данные, становится очевидно, что есть 2 кластера: Вот как я …

1
Алгоритмы кластеризации, работающие с разреженными матрицами данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 5 лет назад . Я пытаюсь составить список алгоритмов кластеризации, которые: Реализовано в R Работа с разреженными матрицами данных (а не матрицами сходства), например, …
18 r  clustering  sparse 

4
Существует ли «проклятие размерности» в реальных данных?
Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и …

2
Кластеризация - Интуиция за теоремой Клейнберга о невозможности
Я думал о том, чтобы написать сообщение в блоге об этом интересном анализе Кляйнберга (2002), в котором исследуется сложность кластеризации. Клейнберг обрисовывает в общих чертах три, казалось бы, интуитивных требования к функции кластеризации, а затем доказывает, что такой функции не существует. Существует много алгоритмов кластеризации, которые удовлетворяют двум из трех …

9
Расчет индекса ранда
Я пытаюсь выяснить, как рассчитать индекс Рэнда кластерного алгоритма, но я застрял в точке, как рассчитать истинные и ложные отрицания. Сейчас я использую пример из книги «Введение в поиск информации» (Manning, Raghavan & Schütze, 2009). На странице 359 они говорят о том, как рассчитать индекс Рэнда. Для этого примера они …
17 clustering 

1
Входные параметры для использования скрытого распределения Дирихле
При использовании тематического моделирования (скрытое распределение Дирихле) количество тем является входным параметром, который необходимо указать пользователю. Мне кажется, что мы также должны предоставить набор кандидатских тем, по которым процесс Dirichlet должен сэмплировать? Правильно ли мое понимание? На практике, как настроить этот набор кандидатов?

8
Оценка качества кластеризации
У меня есть алгоритм кластеризации (не k-средних) с входным параметром (количество кластеров). После выполнения кластеризации я бы хотел получить количественную оценку качества этой кластеризации. Алгоритм кластеризации имеет одно важное свойство. Для если я введу точек данных без какого-либо существенного различия между ними в этом алгоритме, в результате я получу один …
17 clustering 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.