Нужна ли средняя нормализация и масштабирование функций для кластеризации k-средних?


Ответы:


63

Если ваши переменные имеют несопоставимые единицы (например, рост в сантиметрах и вес в килограммах), то вам, конечно, следует стандартизировать переменные. Даже если переменные имеют одинаковые единицы, но демонстрируют совершенно разные отклонения, все равно рекомендуется стандартизировать до K-средних. Видите ли, кластеризация K-средних является «изотропной» во всех направлениях пространства и, следовательно, имеет тенденцию создавать более или менее круглые (а не вытянутые) кластеры. В этой ситуации оставить неравные отклонения равносильно тому, чтобы придать больший вес переменным с меньшей дисперсией, поэтому кластеры будут иметь тенденцию разделяться вдоль переменных с большей дисперсией.

введите описание изображения здесь

1

Вот некоторые общие соображения по поводу вопроса стандартизации функций в кластерном или другом многомерном анализе.


1


2
Рандомизация, повторный прогон, усреднение и финальный прогон - очень хороший совет. Спасибо
pedrosaurio

1
Как бы k-means был чувствительным к порядку?
SmallChess

1
@StudentT, я добавил сноску для этого. Спасибо.
ttnphns

1
@ttnphns Как количественно определить, что переменные имеют «совершенно разные отклонения»?
Герман Тутрот

1
@camillejr, пожалуйста, начните с проверки этого Q: stats.stackexchange.com/q/418427/3277 .
ttnphns

4

Зависит от ваших данных, я думаю. Если вы хотите, чтобы тренды в ваших данных группировались вместе, независимо от их величины, вам следует сосредоточиться. например. скажем, у вас есть какой-то профиль экспрессии генов, и вы хотите видеть тенденции в экспрессии генов, и тогда, без значительного центрирования, ваши гены с низкой экспрессией будут группироваться вместе и удаляться от генов с высокой экспрессией, независимо от тенденций. Центрирование объединяет гены (как с высокой, так и с низкой экспрессией) с одинаковыми паттернами экспрессии.


Я на самом деле сравниваю различные функции, которые имеют свой масштаб. Например, я сравниваю содержание GC, которое имеет диапазон от 0,3 до 0,5, которое может показаться небольшим, но разница весьма важна; некоторые другие функции имеют более широкий диапазон, некоторые другие имеют очень маленький масштаб.
pedrosaurio

Итак, вы группируете разные факторы? Может быть, может использовать вес или преобразование значений.
Nightwriter

Нет, я сравниваю все непрерывные переменные
pedrosaurio
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.