У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов.
Я попробовал следующие два подхода:
(a) Запустите PCA на матрице 50x11 и выберите первые два основных компонента. Спроецируйте данные на 2D-график и запустите простые K-средства для идентификации кластеров.
(б) Построить матрицу подобия 50x50 (косинус). Запустите спектральную кластеризацию для уменьшения размерности, а затем снова выполните K-средних.
В чем концептуальная разница между выполнением прямого PCA и использованием собственных значений матрицы подобия? Один лучше другого?
Кроме того, есть ли лучшие способы визуализации таких данных в 2D? Поскольку мой размер выборки всегда ограничен 50, а мой набор функций всегда находится в диапазоне 10-15, я готов на лету попробовать несколько подходов и выбрать лучший.
Связанный вопрос: Группировка образцов по кластерам или PCA