Статистика и большие данные clustering

4

У меня есть корреляционная матрица, в которой указано, как каждый элемент соотносится с другим элементом. Следовательно, для N элементов у меня уже есть N * N корреляционная матрица. Используя эту корреляционную матрицу, как кластеризовать N элементов в M бинах, чтобы я мог сказать, что Nk элементов в k-ом бине ведут …

20 clustering python k-means

5

Есть ли R-функция, которая будет вычислять матрицу косинусных различий? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Я хотел бы сделать тепловую карту с кластеризацией строк на основе косинусных расстояний. Я использую R и heatmap.2()для создания фигуры. …

20 r clustering similarities

3

Причина нормализации в евклидовых мерах расстояния в иерархической кластеризации

Очевидно, что в иерархической кластеризации, в которой мерой расстояния является евклидово расстояние, данные должны быть сначала нормализованы или стандартизированы, чтобы предотвратить кластеризацию с помощью ковариации с наибольшей дисперсией. Почему это? Разве этот факт не желателен?

19 clustering normalization

8

Кластеризация данных смешанного типа с помощью R

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Интересно, можно ли в R выполнить кластеризацию данных, имеющих смешанные переменные данных? Другими словами, у меня есть набор данных, содержащий как числовые, …

19 r clustering mixed-type-data

1

Как определить количество кластеров в кластеризации K-средних?

Есть ли способ определить оптимальное число кластеров или я должен просто попробовать разные значения и проверить частоту появления ошибок, чтобы выбрать лучшее значение?

19 clustering unsupervised-learning

4

Могут ли быть кластеры с категориальными данными без связанных переменных?

Пытаясь объяснить кластерный анализ, люди часто неправильно понимают процесс как связанный с тем, связаны ли переменные. Один из способов избавить людей от этой путаницы - это заговор, подобный этому: Это ясно показывает разницу между вопросом о наличии кластеров и вопросом о том, связаны ли переменные. Однако это только иллюстрирует различие …

19 clustering categorical-data independence

4

Как понять недостатки иерархической кластеризации?

Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот? Ответы на этот пост очень хорошо объясняют недостатки k средств. Как понять …

19 clustering k-means unsupervised-learning hierarchical-clustering

3

Оценка наиболее важных функций в разделе кластера k-средних

Есть ли способ определить, какие особенности / переменные набора данных являются наиболее важными / доминирующими в кластерном решении k-средних?

19 machine-learning clustering k-means importance

3

Почему статистика разрыва для k-средних предполагает один кластер, хотя, очевидно, их два?

Я использую K-средства для кластеризации своих данных и искал способ предложить «оптимальный» номер кластера. Статистика зазоров, кажется, является распространенным способом найти хороший номер кластера. По некоторым причинам он возвращает 1 в качестве оптимального номера кластера, но когда я смотрю на данные, становится очевидно, что есть 2 кластера: Вот как я …

18 r machine-learning clustering k-means

1

Алгоритмы кластеризации, работающие с разреженными матрицами данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 5 лет назад . Я пытаюсь составить список алгоритмов кластеризации, которые: Реализовано в R Работа с разреженными матрицами данных (а не матрицами сходства), например, …

18 r clustering sparse

4

Существует ли «проклятие размерности» в реальных данных?

Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и …

17 clustering dimensionality-reduction high-dimensional

2

Кластеризация - Интуиция за теоремой Клейнберга о невозможности

Я думал о том, чтобы написать сообщение в блоге об этом интересном анализе Кляйнберга (2002), в котором исследуется сложность кластеризации. Клейнберг обрисовывает в общих чертах три, казалось бы, интуитивных требования к функции кластеризации, а затем доказывает, что такой функции не существует. Существует много алгоритмов кластеризации, которые удовлетворяют двум из трех …

17 mathematical-statistics clustering intuition hierarchical-clustering

9

Расчет индекса ранда

Я пытаюсь выяснить, как рассчитать индекс Рэнда кластерного алгоритма, но я застрял в точке, как рассчитать истинные и ложные отрицания. Сейчас я использую пример из книги «Введение в поиск информации» (Manning, Raghavan & Schütze, 2009). На странице 359 они говорят о том, как рассчитать индекс Рэнда. Для этого примера они …

17 clustering

1

Входные параметры для использования скрытого распределения Дирихле

При использовании тематического моделирования (скрытое распределение Дирихле) количество тем является входным параметром, который необходимо указать пользователю. Мне кажется, что мы также должны предоставить набор кандидатских тем, по которым процесс Dirichlet должен сэмплировать? Правильно ли мое понимание? На практике, как настроить этот набор кандидатов?

17 machine-learning bayesian clustering text-mining dirichlet-distribution

8

Оценка качества кластеризации

У меня есть алгоритм кластеризации (не k-средних) с входным параметром (количество кластеров). После выполнения кластеризации я бы хотел получить количественную оценку качества этой кластеризации. Алгоритм кластеризации имеет одно важное свойство. Для если я введу точек данных без какого-либо существенного различия между ними в этом алгоритме, в результате я получу один …

17 clustering

Вопросы с тегом «clustering»