Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве.
Это, конечно, проблема, поскольку многие вопросы реального мира включают в себя данные, которые смешаны: например, если мы изучаем автобусы, высота, длина и размер двигателя будут числами, но нас также может интересовать цвет (категориальная переменная: синий / красный / зеленый ...) и классы емкости (упорядоченная переменная: малая / средняя / большая емкость). В частности, мы могли бы хотеть изучить эти различные типы переменных одновременно.
Существует ряд методов расширения классических алгоритмов кластеризации для смешанных данных, например, использование различий Gower для подключения к иерархической кластеризации или многомерного масштабирования, или других методов, которые принимают матрицу расстояний в качестве входных данных. Или, например, этот метод, расширение SOM для смешанных данных.
Мой вопрос: почему мы не можем просто использовать евклидово расстояние для смешанных переменных? или почему это плохо? Почему мы не можем просто фиктивно закодировать категориальные переменные, нормализовать все переменные так, чтобы они имели одинаковый вес на расстоянии между наблюдениями, и запустить обычные алгоритмы для этих матриц?
Это действительно легко и никогда не делается, так что я полагаю, что это очень неправильно, но кто-нибудь может сказать мне, почему? И / или дать мне несколько ссылок? Благодарность