У меня есть набор данных X, который имеет 10 измерений, 4 из которых являются дискретными значениями. Фактически, эти 4 дискретные переменные являются порядковыми, то есть более высокое значение подразумевает более высокую / лучшую семантику.
2 из этих дискретных переменных являются категориальными в том смысле, что для каждой из этих переменных расстояние, например, от 11 до 12, не совпадает с расстоянием от 5 до 6. В то время как более высокое значение переменной подразумевает большее в действительности, масштаб не обязательно линейный (на самом деле, он на самом деле не определен).
Мой вопрос:
- Является ли хорошей идеей применить общий алгоритм кластеризации (например, K-средние, а затем гауссова смесь (GMM)) к этому набору данных, который содержит как дискретные, так и непрерывные переменные?
Если не:
- Должен ли я удалить дискретные переменные и сосредоточиться только на непрерывных?
- Должен ли я лучше дискретизировать непрерывные и использовать алгоритм кластеризации для дискретных данных?