Как рассчитать чистоту?


15

В кластерном анализе, как мы рассчитываем чистоту? Какое уравнение?

Я не ищу код, чтобы сделать это для меня.

введите описание изображения здесь

Пусть - кластер k, а - класс j.ωkcj

Так чистота практически точность? похоже, что суммирование действительно классифицированного класса на кластер по размеру выборки.

источник уравнения

Вопрос в том, какова связь между выходом и входом?

Если есть действительно положительный (TP), истинно отрицательный (TN), ложно положительный (FP), ложно отрицательный (FN). Это ?Purity=TPK(TP+TN+FP+FN)


3
Если вам просто нужно быстрое определение: здесь приведен самый популярный поиск Google по чистоте кластеризации **, который дает математическое определение. (по крайней мере для меня ** - ваши индивидуальные результаты могут отличаться)
Glen_b

Я понятия не имею, что вы подразумеваете под «чистотой», но Дэвид Колкхоун использует «черный магический анализ чистоты сердца» в качестве примера биномиальной выборки на стр. 111-114 своего превосходного учебника «Лекции по биостатистике» (1971), который доступно в виде бесплатного pdf с сайта автора: dcscience.net. Даже если это не имеет отношения к вашему вопросу, это отличная история.
Майкл Лью

В деревьях классификации некоторые функции для измерения примесей: ошибка повторного замещения, индекс Джини и энтропия. (Деревья классификации выполняют особую форму кластеризации, поэтому я думаю, что это должно быть актуально.) Надеюсь, это поможет!
Angelorf

Ответы:


25

В контексте кластерного анализа чистота является внешним критерием оценки качества кластера. Это процент от общего количества объектов (точек данных), которые были классифицированы правильно, в диапазоне единиц [0..1].

Purity=1Ni=1kmaxj|citj|

NkciСtjci

citiciticiticiciticitimax

citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

Можете ли вы также ответить за энтропию?
MonsterMMORPG


tjmaxj
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.