Расстояние между двумя гауссовыми смесями для оценки кластерных решений


11

Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения.

Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются, если предполагаемое количество кластеров фактически равно истинному количеству кластеров. Я хочу сохранить возможность измерять, насколько хорошо работает решение для кластеризации, когда оно не указывает правильное количество кластеров в исходной имитации (т. Е. Насколько хорошо данные модели для трех кластеров, которые были смоделированы, имели 4-кластерный кластер). решение). Просто для вашей информации, кластеры моделируются, чтобы иметь идентичные ковариационные матрицы.

Я думал, что дивергенцию KL между двумя смесями Гауссиана было бы полезно реализовать, но решения в замкнутой форме не существует ( Hershey and Olson (2007) ), и реализация моделирования Монте-Карло начинает становиться вычислительно дорогой.

Существуют ли другие решения, которые могут быть легко реализованы (даже если это только приблизительное значение)?


Расстояние L2 между двумя гауссовыми смесями доступно в закрытом виде. Используйте это, и у вас должно быть все готово.

Я не знаю, как вы это сделаете, но для меня это не очень хорошая идея. Возьмите смесь, переставьте компоненты (без изменений в p (x)) и расстояние L2 может быть любым. Кроме того, расстояние L2 не очень хорошая идея для ковариационных матриц.
Bayerj

Предиктивная прогнозирующая вероятность сохраненного тестового набора данных. Я подозреваю, что вам нужны приоры на к хотя.
предположения

Первая ссылка не работает
ttnphns

Ответы:


6

Предположим, у нас есть две гауссовские смеси в : Назовите их плотности и соответственно и обозначим плотности их компонентов , через , .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

Следующие расстояния доступны в закрытом виде:

  • L2Расстояние , как указано в комментарии пользователя 39665. Это: Обратите внимание, что, как видно, например, в разделе 8.1.8 поваренной книги матрицы : так что это можно легко оценить за времени.

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • Максимальное среднее расхождение (MMD) с ядром гауссова RBF. Это крутая дистанция, еще не очень известная среди статистического сообщества, для определения которой требуется немного математики.

    Пусть определим гильбертово пространство как воспроизводящее гильбертово пространство ядра, соответствующее : .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    Определите ядро средней карты как

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    Тогда MMD будет

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    Для наших смесей и обратите внимание, что и аналогично для и .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    Используя трюки, аналогичные , получается , что равно L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    Как , ясно, что это сходится к кратному расстоянию . Вы обычно хотели бы использовать другой , однако, один в масштабе изменения данных.σ0L2σ

    Замкнутые формы также доступны для полиномиальных ядер в MMD; видетьk

    Muandet, Fukumizu, Dinuzzo и Schölkopf (2012). Изучение из распределений через машины поддержки мер. Достижения в области нейронных систем обработки информации ( официальная версия ). arXiv: 1202.6504 .

    Для много хороших свойств этого расстояния, см.

    Sriperumbudur, Gretton, Fukumizu, Schölkopf и Lanckriet (2010). Вложения гильбертова пространства и метрики на вероятностных мерах. Журнал исследований машинного обучения, 11, 1517–1561 . arXiv: 0907.5309 .

  • Квадратичное расхождение Дженсена-Реньи. Энтропия Рени- определяется как Его предел как является энтропией Шеннона. Расхождение Дженсена-Реньи равно где обозначает равную смесь между и . Оказывается, что когда и когда и являются гауссовыми смесями (как здесь), вы можете вычислить замкнутую форму для . Это было сделаноα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer и Rangarajan (2009). Расхождение Дженсена-Реньи в замкнутой форме для смеси гауссианов и приложения к групповой регистрации форм. Med Image Comput Comput Assist Interv., 12 (1), 648–655. ( бесплатная опубликованная версия )


0

Если ваши кластеры на самом деле не являются гауссовыми смесями, а имеют произвольную форму, ваши результаты могут быть намного лучше, когда вы создаете гораздо больше кластеров, а затем объединяете некоторые из них снова.

Во многих случаях просто выбирают k как произвольно высокий, например, 1000 для большого набора данных; в частности, когда вы на самом деле не интересуетесь моделями, а просто хотите уменьшить сложность набора данных с помощью векторного квантования.


Я смоделировал кластеры, которые будут взяты из гауссовой смеси, поэтому я думаю, что мое предположение верно. Цель здесь не состоит в том, чтобы уменьшить сложность или придумать критерий принятия решения для выбора k, но сравнить, насколько хорошо k кластеров моделирует данные, когда k фактически неверно. Некоторые неправильные варианты могут моделировать данные лучше, чем другие, и я пытаюсь количественно оценить эту степень несоответствия с помощью некоторых вычислений (например, дивергенция KL, но ее легче реализовать для гауссовых смесей).
dmartin

0

Вот обобщение Mahalanobis D для GMM с использованием метода ядра Фишера и других методов:

Типпинг, Майкл Э. «Получение кластерных аналитических дистанционных функций из моделей гауссовой смеси». (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

Смотрите также: Существует ли мультигауссовская версия расстояния Махаланобиса?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.