Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?

Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means.

В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней мере, они не подходят для использования)? Например, что если данные являются изображениями рукописных цифр, состоящих из 8 * 8 пикселей каждое со значением 0 или 1 (и предположить, что они независимы, то это должна быть смесь Бернулли)?

Я немного запутался в этом и буду благодарен за любые мысли.

— eddie.xie
источник

Если вы спрашиваете, допустимо ли выполнять кластеризацию с помощью k-средних для ненормальных данных, ответ будет положительным, если предполагается, что данные являются непрерывными. Двоичные данные не являются непрерывными. Некоторые люди делают k-средства на таких данных, что является эвристически допустимым, но теоретически недействительным.

— ttnphns

Для k-средних нет вероятностной модели, поэтому нет нормального допущения, которое можно сделать недействительным. (не значит, что это будет хорошо работать)

— предположения

@conjectures Хмм ... Но k-menas эквивалентно GMM, а GMM предполагает нормальное.

— eddie.xie

@ttnphns Спасибо за ваш ответ! Поэтому я думаю, что если я использую TF-IDF для перевода текста в партитуры и обеспечения его непрерывности, я смогу подать заявку, и это действительно?

— eddie.xie

Я внезапно осознаю, что GMM - это смесь (сумма) нескольких гауссиан, и она должна быть способна выразить любое распределение при достаточном количестве смесей. Таким образом, даже GMM и K-средства эквивалентны, это не означает, что K-средства не могут использовать ненормальные данные, потому что GMM может выражать любое распределение. Это верно?

— eddie.xie

Ответы:

В типичных ситуациях EM GMM учитывают дисперсию и ковариацию. Это не сделано в k-средних.

Но действительно, одна из популярных эвристик для k-средних (примечание: k-means - это проблема, а не алгоритм) - алгоритм Ллойда - по сути является EM-алгоритмом, использующим модель центроида (без дисперсии) и жесткие назначения.

Выполняя кластеризацию в стиле k-средних (т.е. минимизацию дисперсии), вы

по совпадению минимизировать квадрат евклидова расстояния, потому что WCSS (внутрикластерная сумма квадратов) вклад дисперсии = квадрат евклидова расстояния
по совпадению присваивает объекты ближайшему кластеру по евклидову расстоянию, потому что функция sqrt является монотонной (обратите внимание, что среднее значение не оптимизирует евклидовы расстояния, но функция WCSS)
представлять кластеры, используя только центроид
получить Вороной кластеры в форме клетки, то есть полигоны
лучше всего работает со сферическими кластерами

{argmin}_{S} Σ_{я знак равно 1}^{К} \underset{{Икс}_{J} \in S_{я}}{Σ} Σ_{d знак равно 1}^{D} {({Икс}_{J d} - μ_{я d})}^{2}

$\text{argmin}_S \sum_{i=1}^{k} \sum_{x_j \in S_i} \sum_{d=1}^{D} \left(x_{jd} - \mu_{id} \right)^2$

S = {S_{1} \dots S_{k}}

$S=\{S_1 \ldots S_k\}$

k

$k$

D

$D$

x_{j d}

$x_{jd}$

j

$j$

d

$d$

Обычно говорят, что к-среднее предполагает сферические кластеры. Также общепризнанно, что кластеры k-средних являются клетками Вороного, т.е. не сферическими. Оба верны, и оба неправы. Прежде всего, кластеры - это не полные клетки Вороного, а только известные в них объекты. Нет необходимости рассматривать мертвое пространство между кластерами как часть любого кластера, так как наличие там объекта повлияет на результат алгоритма. Но не намного лучше назвать это «сферическим», просто потому, что евклидово расстояние сферическое. K-means не заботится о евклидовом расстоянии. Все, что есть, - это эвристика для минимизации дисперсий . И это на самом деле то, что вы должны рассматривать k-означает: минимизация дисперсии.

— Аноним-Мусс-Восстановить Монику
источник

Позвольте мне предложить вам немного уточнить некоторые выражения - для большей точности. Например, что для minimize squared euclidean distanceили minimize the variances? Должны быть слова «сумма» или «объединено» или что-то подобное, потому что у нас есть 2+ кластера, не так ли?

— ttnphns

Кстати, поскольку k-means минимизирует объединенную сумму внутри кластера d ^ 2, деленную на количество объектов в соответствующем кластере, ваша точка зрения coincidentally minimize Euclidean distance, because the sqrt function is monotone, если быть точным, не верна.

— ttnphns

Подходящей целевой функцией, для которой вы можете доказать сходимость, является WCSS, в пределах суммы квадратов кластера . И действительно, это не сводит к минимуму евклидовы расстояния, но это расстояние между центроидами и евклидами также является оптимальным назначением WCSS.

— Аноним-Мусс

Ваша формулировка, к сожалению, остается сомнительной . Что фраза minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance означает , ? Вы говорите «квадраты d между объектами в кластерах минимизируются, потому что WCSS отклонений минимизируется», или просто «WCSS отклонений минимизируется, которые - отклонения - являются евклидовыми расстояниями по природе»? Или что-то еще?

— ttnphns

Очевидно, что k-means - это хороший выбор, только если вам нужна модель центроидов ваших данных. Если вы хотите оптимизировать попарные расстояния, используйте иерархическую кластеризацию.

— Anony-Mousse -Восстановить Монику

GMM использует перекрывающиеся холмы, которые простираются до бесконечности (но практически учитывают только 3 сигмы). Каждая точка получает все оценки вероятности холмов. Кроме того, холмы имеют «яйцевидную форму» [хорошо, это симметричные эллипсы ] и, используя полную ковариационную матрицу, могут быть наклонены .

K-означает жесткое назначение точки одному кластеру, поэтому оценки других центров кластеров игнорируются (неявно сбрасываются в ноль / не волнует). На холмах сферические мыльные пузыри. При соприкосновении двух мыльных пузырей граница между ними становится плоской (гипер) плоскостью. Точно так же, как когда вы пускаете пену из множества мыльных пузырей, пузыри внутри не плоские, а квадратные, поэтому границы между многими (гипер-) сферами фактически образуют вороное разделение пространства. В 2D это имеет тенденцию выглядеть неопределенно как гексагональная плотная упаковка, например, улей (хотя, конечно, ячейки Вороного не гарантированно будут шестиугольниками). Холм с K-средним является круглым и не наклоняется, поэтому у него меньше представительная сила; но это гораздо быстрее для вычисления, особенно в более высоких измерениях.

Поскольку K-means использует евклидову метрику расстояния, предполагается, что размеры сопоставимы и имеют одинаковый вес. Таким образом, если измерение X имеет единицы миль в час, варьируясь от 0 до 80, а измерение Y имеет единицы фунтов, варьирующиеся от 0 до 400, и вы помещаете окружности в это пространство XY, то одно измерение (и его разброс) будет более мощным, чем другое измерение, и затмит результаты. Вот почему принято нормализовать данные при приеме К-средних.

И GMM, и K-средства моделируют данные, подбирая наилучшие приближения к тому, что дано. GMM подходит для опрокинутых яиц, а K-средство подходит для сферических шариков. Но лежащие в основе данные могут иметь форму чего угодно, это может быть спираль или картина Пикассо, и каждый алгоритм все равно будет работать и делать свой лучший снимок. Насколько итоговая модель будет похожа на фактические данные, зависит от базового физического процесса, генерирующего данные. (Например, измерения задержки являются односторонними; хорошо ли подходит гауссиан? Возможно.)

$R^n$

Таким образом, ваше двоичное изображение 8x8 будет рассматриваться как 64-мерный гиперкуб в первом гиперквадранте. Затем алгоритмы используют геометрические аналогии для поиска кластеров. Расстояние с К-средним показывается как евклидово расстояние в 64-мерном пространстве. Это один из способов сделать это.

— Dragonlord
источник

Обратите внимание, что оба алгоритма также неявно предполагают, что пространственные оси одинаково плотны во всех точках, поэтому для подгонки экспоненциально, логарифмически или синусоидально изменяющихся данных обычно требуется предварительное преобразование для преобразования данных в приблизительно линейно изменяющуюся область.

— DragonLord