В кластерном анализе, как мы рассчитываем чистоту? Какое уравнение?
Я не ищу код, чтобы сделать это для меня.
Пусть - кластер k, а - класс j.
Так чистота практически точность? похоже, что суммирование действительно классифицированного класса на кластер по размеру выборки.
Вопрос в том, какова связь между выходом и входом?
Если есть действительно положительный (TP), истинно отрицательный (TN), ложно положительный (FP), ложно отрицательный (FN). Это ?
3
Если вам просто нужно быстрое определение: здесь приведен самый популярный поиск Google по чистоте кластеризации **, который дает математическое определение. (по крайней мере для меня ** - ваши индивидуальные результаты могут отличаться)
—
Glen_b
Я понятия не имею, что вы подразумеваете под «чистотой», но Дэвид Колкхоун использует «черный магический анализ чистоты сердца» в качестве примера биномиальной выборки на стр. 111-114 своего превосходного учебника «Лекции по биостатистике» (1971), который доступно в виде бесплатного pdf с сайта автора: dcscience.net. Даже если это не имеет отношения к вашему вопросу, это отличная история.
—
Майкл Лью
В деревьях классификации некоторые функции для измерения примесей: ошибка повторного замещения, индекс Джини и энтропия. (Деревья классификации выполняют особую форму кластеризации, поэтому я думаю, что это должно быть актуально.) Надеюсь, это поможет!
—
Angelorf