Оценка наиболее важных функций в разделе кластера k-средних


19

Есть ли способ определить, какие особенности / переменные набора данных являются наиболее важными / доминирующими в кластерном решении k-средних?


1
Как вы определяете "важный / доминирующий"? Вы имеете в виду наиболее полезные для различения кластеров?
Франк Дернонкур

3
Да, самое полезное, что я имел в виду. Я думаю, что часть моей проблемы с выяснением этого состоит в том, как сформулировать это.
user1624577

Благодарю за разъяснение. Одним из обычных терминов, обозначающих эту проблему в машинном обучении, является выбор функций .
Франк Дернонкур

Ответы:


8

Один из способов количественно оценить полезность каждой функции (= переменная = размерность) из книги Бернс, Роберт П. и Ричард Бернс. Методы бизнес-исследований и статистика с использованием SPSS. Sage, 2008. ( зеркало ), полезность определяется дискриминационной способностью функций отличать кластеры.

Обычно мы проверяем средние значения для каждого кластера в каждом измерении, используя ANOVA, чтобы оценить, насколько различимы наши кластеры. В идеале мы получили бы существенно разные средства для большинства, если не для всех измерений, используемых в анализе. Величина значений F, выполняемых для каждого измерения, является показателем того, насколько хорошо соответствующее измерение различает кластеры.

Другим способом было бы удалить конкретную функцию и посмотреть, как это влияет на внутренние показатели качества . В отличие от первого решения, вам придется переделывать кластеризацию для каждой функции (или набора функций), которую вы хотите проанализировать.

Справка:


4
Это очень важно , чтобы добавить , что в этом контексте следует не принимать те F (или р) значения в качестве показателей статистической значимости (т.е. по отношению население), а просто в качестве индикаторов величины различий.
ttnphns

3

Я могу думать о двух других возможностях, которые больше фокусируются на том, какие переменные важны для каких кластеров.

  1. Многоклассовая классификация. Рассмотрим объекты, которые принадлежат членам кластера x одного и того же класса (например, класса 1), и объекты, которые принадлежат другим членам кластера второго класса (например, класса 2). Обучите классификатор, чтобы предсказать членство в классе (например, класс 1 против класса 2). Переменные коэффициенты классификатора могут служить для оценки важности каждой переменной в кластеризованных объектах для кластера x . Повторите этот подход для всех других кластеров.

  2. Сходство внутрикластерных переменных. Для каждой переменной вычислите среднее сходство каждого объекта с его центроидом. Переменная, которая имеет высокое сходство между центроидом и его объектами, вероятно, более важна для процесса кластеризации, чем переменная, которая имеет низкое сходство. Конечно, величина подобия относительна, но теперь переменные можно ранжировать по степени, в которой они помогают кластеризовать объекты в каждом кластере.


0

Вот очень простой метод. Обратите внимание, что евклидово расстояние между двумя кластерными центрами представляет собой сумму квадратов разности между отдельными элементами. Затем мы можем просто использовать квадратную разницу в качестве веса для каждой функции.

Евклидово расстояние

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.