Насколько я знаю, «среднее» кластера и центроид одного кластера - это одно и то же, хотя термин «центроид» может быть немного более точным, чем «среднее» при работе с многомерными данными.
Чтобы найти центроид, вычисляют среднее арифметическое значений точек отдельно для каждого измерения. Например, если у вас есть очки на:
- (-1, 10, 3),
- (0, 5, 2) и
- (1, 20, 10),
тогда центр тяжести будет расположен в ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), что упрощает (0, 11 2/3, 5). (NB: Центроид не должен быть - и редко является - одним из исходных точек данных)
Центроид также иногда называют центром массы или барицентром, основываясь на его физической интерпретации (это центр массы объекта, определенного точками). Как и среднее значение, расположение центроида минимизирует суммарное расстояние от других точек.
Связанной идеей является медоид , который является точкой данных, которая «наименее отличается» от всех других точек данных. В отличие от центроида, медоид должен быть одной из исходных точек. Вы также можете быть заинтересованы в геометрической медиане, которая аналогична медиане, но для многомерных данных. Они оба отличаются от центроида.
AВцентроид ( A )центроид ( B )aяAdist ( aя, б1)dist ( aя, б2)dist ( aя, бN)