Визуальное построение многомерных кластерных данных


17

У меня есть набор данных с 16 переменными, и после кластеризации по kmeans я хочу построить две группы.

Какие графики вы предлагаете визуально представить двум кластерам?

Ответы:


23

Там нет единой правильной визуализации. Это зависит от того, какой аспект кластеров вы хотите увидеть или подчеркнуть.

Хотите увидеть, как каждая переменная способствует? Рассмотрим график параллельных координат.

Параллельные координаты для двух кластеров и средних кластеров

Хотите увидеть, как кластеры распределены по основным компонентам? Рассмотрим биплот (в 2D или 3D):

Кластерный биплот

Вы хотите искать кластерные выбросы по всем измерениям. Рассмотрим диаграмму рассеяния расстояния от центра кластера 1 против расстояния от центра кластера 2. (По определению K означает, что каждый кластер будет падать с одной стороны от диагональной линии.)

введите описание изображения здесь

Хотите увидеть парные отношения по сравнению с кластеризацией. Рассмотрим матрицу рассеяния, раскрашенную кластером.

введите описание изображения здесь

Хотите увидеть сводный вид расстояний кластеров? Рассмотрите сравнение любой визуализации распределения, такой как гистограммы, графики скрипки или коробочные графики.

введите описание изображения здесь


2

Многомерные дисплеи сложны, особенно с таким количеством переменных. У меня есть два предложения.

Если есть определенные переменные, которые особенно важны для кластеризации или по существу интересны, вы можете использовать матрицу диаграммы рассеяния и отобразить двумерные отношения между интересующими вас переменными. Вы могли бы даже использовать расширенные диаграммы рассеяния (например, использовать формы с размером, пропорциональным третьей переменной), чтобы добавить больше размерности

В качестве альтернативы, вы можете использовать пружинный график, который был разработан для отображения данных больших размеров, которые показывают кластеризацию. Обратите внимание, я никогда не видел этого в литературе, с которой я знаком, но я думаю, что это очень интересный способ отображения многомерных данных. Следующая цитата - то, где заговор был первоначально предложен.

Hoffman, PE et al. (1997) Анализ ДНК визуальных и аналитических данных. В трудах IEEE Визуализация. Phoenix, AZ, pp. 437-441.

И вот где я изначально нашел упоминание об этом.

Теперь, честное предупреждение, я не смог найти реализацию заговоров за пределами Orange. Опять же, я не искал так сильно!

Я предполагаю, что ваши данные являются реальными и непрерывными, если они дискретные или не интервальные, и так далее, и так далее, я не думаю, что эти графики были бы полезны.


1
Существует реализация Radviz для R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

Вы можете использовать функцию fviz_cluster из factoextra pacakge в R. Она покажет график разброса ваших данных, и кластером будут различные цвета точек.

Насколько я понимаю, эта функция выполняет PCA, а затем выбирает два верхних ПК и наносит их на 2D.

Любые предложения / улучшения в моем ответе приветствуются.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.