Один из способов присвоить вес переменной - изменить ее масштаб. Уловка работает для алгоритмов кластеризации, которые вы упоминаете, а именно. k-средних, средневзвешенная связь и средняя связь.
Кауфман, Леонард и Питер Дж. Руссеув. « Поиск групп в данных: введение в кластерный анализ ». (2005) - стр. 11:
Выбор единиц измерения приводит к относительному весу переменных. Выражение переменной в меньших единицах приведет к увеличению диапазона для этой переменной, что затем окажет большое влияние на результирующую структуру. С другой стороны, стандартизируя, мы пытаемся придать всем переменным одинаковый вес в надежде достичь объективности. Как таковой, он может быть использован практикующим, который не обладает предварительными знаниями. Однако вполне может быть, что некоторые переменные по своей природе более важны, чем другие в конкретном приложении, и тогда присвоение весов должно основываться на знании предмета (см., Например, Abrahamowicz, 1985).
С другой стороны, были попытки разработать методы кластеризации, которые не зависят от масштаба переменных (Фридман и Рубин, 1967). Предложение Харди и Рассона (1982) состоит в поиске раздела, который минимизирует общий объем выпуклых оболочек скоплений. В принципе, такой метод является инвариантным относительно линейных преобразований данных, но, к сожалению, не существует алгоритма для его реализации (кроме аппроксимации, которая ограничена двумя измерениями). Поэтому в настоящее время дилемма стандартизации кажется неизбежной, и программы, описанные в этой книге, оставляют выбор за пользователем.
Абрахамович, М. (1985). Использование нечисловой информации для измерения различий, документ, представленный на четвертом Европейском совещании Психометрического общества и классификационных обществ, 2-5 июля, Кембридж (Великобритания).
Фридман, HP, и Рубин, J. (1967), О некоторых инвариантных критериев для группировки данных. Дж. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A. и Rasson, JP (1982), Une nouvelle Approche des Проблемы проблем классификации автоматики, Statist. Анальный. Donnies, 7, 41-56.