Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних были единственными доступными вариантами. В частности, кажется, что доступны новые методы кластеризации на основе моделей, которые, как указывает chl , позволяют использовать «индексы соответствия» для определения количества кластеров или классов ».
Однако стандартный пакет R для кластеризации на основе моделей, mclust
очевидно, не подойдет для моделей со смешанными типами данных. fpc
Модель, но имеет неприятности подгонки модели, я подозреваю , что из-за негауссовости непрерывных переменных. Должен ли я продолжить модельный подход? Я хотел бы продолжать использовать R, если это возможно. На мой взгляд, у меня есть несколько вариантов:
- Преобразуйте трехуровневую категориальную переменную в две фиктивные переменные и используйте
mclust
. Я не уверен, что это повлияет на результаты, но если нет, то это мой предпочтительный вариант. - Как-то преобразуйте непрерывные переменные и используйте
fpc
пакет. - Используйте другой пакет R, с которым я еще не сталкивался.
- Создайте матрицу различий, используя меру Гауэра, и используйте традиционные иерархические или кластерные методы перемещения.
Есть ли какие-нибудь предложения у сайта stats.se?