GMM использует перекрывающиеся холмы, которые простираются до бесконечности (но практически учитывают только 3 сигмы). Каждая точка получает все оценки вероятности холмов. Кроме того, холмы имеют «яйцевидную форму» [хорошо, это симметричные эллипсы ] и, используя полную ковариационную матрицу, могут быть наклонены .
K-означает жесткое назначение точки одному кластеру, поэтому оценки других центров кластеров игнорируются (неявно сбрасываются в ноль / не волнует). На холмах сферические мыльные пузыри. При соприкосновении двух мыльных пузырей граница между ними становится плоской (гипер) плоскостью. Точно так же, как когда вы пускаете пену из множества мыльных пузырей, пузыри внутри не плоские, а квадратные, поэтому границы между многими (гипер-) сферами фактически образуют вороное разделение пространства. В 2D это имеет тенденцию выглядеть неопределенно как гексагональная плотная упаковка, например, улей (хотя, конечно, ячейки Вороного не гарантированно будут шестиугольниками). Холм с K-средним является круглым и не наклоняется, поэтому у него меньше представительная сила; но это гораздо быстрее для вычисления, особенно в более высоких измерениях.
Поскольку K-means использует евклидову метрику расстояния, предполагается, что размеры сопоставимы и имеют одинаковый вес. Таким образом, если измерение X имеет единицы миль в час, варьируясь от 0 до 80, а измерение Y имеет единицы фунтов, варьирующиеся от 0 до 400, и вы помещаете окружности в это пространство XY, то одно измерение (и его разброс) будет более мощным, чем другое измерение, и затмит результаты. Вот почему принято нормализовать данные при приеме К-средних.
И GMM, и K-средства моделируют данные, подбирая наилучшие приближения к тому, что дано. GMM подходит для опрокинутых яиц, а K-средство подходит для сферических шариков. Но лежащие в основе данные могут иметь форму чего угодно, это может быть спираль или картина Пикассо, и каждый алгоритм все равно будет работать и делать свой лучший снимок. Насколько итоговая модель будет похожа на фактические данные, зависит от базового физического процесса, генерирующего данные. (Например, измерения задержки являются односторонними; хорошо ли подходит гауссиан? Возможно.)
рN
Таким образом, ваше двоичное изображение 8x8 будет рассматриваться как 64-мерный гиперкуб в первом гиперквадранте. Затем алгоритмы используют геометрические аналогии для поиска кластеров. Расстояние с К-средним показывается как евклидово расстояние в 64-мерном пространстве. Это один из способов сделать это.