Чем нахождение центроида отличается от нахождения среднего значения?


26

При выполнении иерархической кластеризации можно использовать множество метрик для измерения расстояния между кластерами. Две такие метрики подразумевают вычисление центроидов и средних точек данных в кластерах.

В чем разница между средним и центроидом? Разве это не одна и та же точка в кластере?

Ответы:


38

Насколько я знаю, «среднее» кластера и центроид одного кластера - это одно и то же, хотя термин «центроид» может быть немного более точным, чем «среднее» при работе с многомерными данными.

Чтобы найти центроид, вычисляют среднее арифметическое значений точек отдельно для каждого измерения. Например, если у вас есть очки на:

  • (-1, 10, 3),
  • (0, 5, 2) и
  • (1, 20, 10),

тогда центр тяжести будет расположен в ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), что упрощает (0, 11 2/3, 5). (NB: Центроид не должен быть - и редко является - одним из исходных точек данных)

Центроид также иногда называют центром массы или барицентром, основываясь на его физической интерпретации (это центр массы объекта, определенного точками). Как и среднее значение, расположение центроида минимизирует суммарное расстояние от других точек.

Связанной идеей является медоид , который является точкой данных, которая «наименее отличается» от всех других точек данных. В отличие от центроида, медоид должен быть одной из исходных точек. Вы также можете быть заинтересованы в геометрической медиане, которая аналогична медиане, но для многомерных данных. Они оба отличаются от центроида.

ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)


При каких условиях центроид и медоид будут идентичны? А также, почему центроид является хорошим представителем набора точек?
Райкумардипак

@dkr, вы можете задать этот вопрос как новый вопрос, чтобы получить больше (и более подробных) ответов. Тем не менее, разница сводится к двум вещам: 1) вещь, которую нужно минимизировать (квадрат расстояния / норма L2 для центроида, абсолютное расстояние / норма L1 для медиода) и 2) может ли выходной сигнал быть любой точкой (центроид) или должен быть в наборе данных (mediod). Вы можете представить себе случаи, когда они будут одинаковыми, но в целом они не будут. Центроид является «хорошим» по тем же причинам, по которым среднее значение (наименьшее расстояние в квадрате от точки), а также имеет аналогичные недостатки (например, не устойчивы к выбросам).
Мэтт Краузе

4

Приведенный выше ответ может быть неправильным, см. Это видео: https://www.youtube.com/watch?v=VMyXc3SiEqs Кажется, что среднее значение складывает все комбинации расстояний между элементами кластера 1 и кластера 2 - то есть n ^ 2 расстояния сложены вместе, а затем делится на п ^ 2 к среднему.

Метод Centroid сначала вычисляет среднее значение каждого кластера внутри себя. Затем он рассчитывает одно расстояние между этими средними точками.


1
Привет, Гейб! Я думаю, что вы говорите об этой части видео? Насколько я знаю, центроид и среднее значение одного кластера - это одно и то же, но, как вы указали, расстояние между центроидами и среднее расстояние между двумя кластерами являются разными мерами. Я думал, что ОП спрашивает о первом, но я немного отредактировал и о втором. Спасибо за указание (+1) и добро пожаловать в Cross Validated!
Мэтт Краузе

-1

Центр тяжести - это среднее значение точек данных в кластере, точка центра тяжести не обязательно должна присутствовать в наборе данных, тогда как медоид - это точка данных, которая ближе к центроиду, медоид должен присутствовать в исходных данных.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.