Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения.
Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются, если предполагаемое количество кластеров фактически равно истинному количеству кластеров. Я хочу сохранить возможность измерять, насколько хорошо работает решение для кластеризации, когда оно не указывает правильное количество кластеров в исходной имитации (т. Е. Насколько хорошо данные модели для трех кластеров, которые были смоделированы, имели 4-кластерный кластер). решение). Просто для вашей информации, кластеры моделируются, чтобы иметь идентичные ковариационные матрицы.
Я думал, что дивергенцию KL между двумя смесями Гауссиана было бы полезно реализовать, но решения в замкнутой форме не существует ( Hershey and Olson (2007) ), и реализация моделирования Монте-Карло начинает становиться вычислительно дорогой.
Существуют ли другие решения, которые могут быть легко реализованы (даже если это только приблизительное значение)?