Есть ли способ определить, какие особенности / переменные набора данных являются наиболее важными / доминирующими в кластерном решении k-средних?
Есть ли способ определить, какие особенности / переменные набора данных являются наиболее важными / доминирующими в кластерном решении k-средних?
Ответы:
Один из способов количественно оценить полезность каждой функции (= переменная = размерность) из книги Бернс, Роберт П. и Ричард Бернс. Методы бизнес-исследований и статистика с использованием SPSS. Sage, 2008. ( зеркало ), полезность определяется дискриминационной способностью функций отличать кластеры.
Обычно мы проверяем средние значения для каждого кластера в каждом измерении, используя ANOVA, чтобы оценить, насколько различимы наши кластеры. В идеале мы получили бы существенно разные средства для большинства, если не для всех измерений, используемых в анализе. Величина значений F, выполняемых для каждого измерения, является показателем того, насколько хорошо соответствующее измерение различает кластеры.
Другим способом было бы удалить конкретную функцию и посмотреть, как это влияет на внутренние показатели качества . В отличие от первого решения, вам придется переделывать кластеризацию для каждой функции (или набора функций), которую вы хотите проанализировать.
Справка:
Я могу думать о двух других возможностях, которые больше фокусируются на том, какие переменные важны для каких кластеров.
Многоклассовая классификация. Рассмотрим объекты, которые принадлежат членам кластера x одного и того же класса (например, класса 1), и объекты, которые принадлежат другим членам кластера второго класса (например, класса 2). Обучите классификатор, чтобы предсказать членство в классе (например, класс 1 против класса 2). Переменные коэффициенты классификатора могут служить для оценки важности каждой переменной в кластеризованных объектах для кластера x . Повторите этот подход для всех других кластеров.
Сходство внутрикластерных переменных. Для каждой переменной вычислите среднее сходство каждого объекта с его центроидом. Переменная, которая имеет высокое сходство между центроидом и его объектами, вероятно, более важна для процесса кластеризации, чем переменная, которая имеет низкое сходство. Конечно, величина подобия относительна, но теперь переменные можно ранжировать по степени, в которой они помогают кластеризовать объекты в каждом кластере.