Почему оптимизация смеси гауссов напрямую в вычислительном отношении трудна?


18

Рассмотрим логарифмическую вероятность смешения гауссиан:

L(SN;θ)знак равноΣTзнак равно1Nжурнале(Икс(T)|θ)знак равноΣTзнак равно1Nжурнал{Σязнак равно1Кпяе(Икс(T)|μ(я),σя2)}

Мне было интересно, почему в вычислительном отношении было трудно максимизировать это уравнение напрямую? Я искал либо ясную твердую интуицию о том, почему должно быть очевидно, что это сложно, либо, может быть, более строгое объяснение, почему это сложно. Эта проблема NP-полная или мы просто еще не знаем, как ее решить? Это причина, по которой мы прибегаем к использованию алгоритма EM ( ожидание-максимизация )?


Обозначения:

SN = тренировочные данные.

Икс(T) = точка данных.

θ = набор параметров, задающих гауссиан, их средние значения, стандартные отклонения и вероятность генерации точки из каждого кластера / класса / гаусса.

пя = вероятность генерации точки из кластера / класса / гауссова i.

Ответы:


14

Во-первых, GMM - это особый алгоритм кластеризации, где вы пытаетесь найти оптимальную маркировку ваших наблюдений. Имея k возможных классов, это означает, что есть k n возможных обозначений ваших тренировочных данных. Это становится уже огромным для умеренных значений k и n .NkknkN

Во-вторых, функционал, который вы пытаетесь минимизировать, не является выпуклым, и вместе с размером вашей проблемы делает его очень сложным. Я только знаю, что k-means (GMM можно рассматривать как мягкую версию kmeans) является NP-сложным. Но я не знаю, было ли это доказано и для GMM.

Чтобы увидеть, что проблема не является выпуклой, рассмотрим одномерный случай: и убедитесь, что вы не можете гарантировать, что d 2 L

L=log(e(x/σ1)2+e(x/σ2)2)
для всех x.d2Ldx2>0

Наличие невыпуклой проблемы означает, что вы можете застрять в локальных минимумах. В общем, у вас нет сильных гарантий в отношении выпуклой оптимизации, и поиск решения также намного сложнее.


3
Что касается второго пункта: k-means можно рассматривать как частный случай GMM (точнее, предельный случай, когда дисперсии сводятся к нулю). Если мы можем уменьшить K-средства до соответствия GMM, последний также должен быть NP-трудной проблемой.
Лукас

1
@Lucas: Вот перекрестная проверка ссылки на ваше замечание.
Сиань

7

В дополнение к пунктам Джуампы, позвольте мне сообщить о следующих трудностях:

  • Функция не ограничена, поэтому истинный максимум + и соответствует ц ( я ) = х 1 (к примеру) и σ я = 0 . Поэтому истинный максимизатор должен заканчиваться этим решением, которое бесполезно для целей оценки.L(θ|SN)+μ^(я)знак равноИкс1σ^язнак равно0
  • КNL(θ|SN)θизображение ниже

взято из моей книги .

Дополнительное замечание: без вызова EM-алгоритма можно использовать стандартный алгоритм оптимизации (например, Ньютона-Рафсона) по одному параметру за раз, то есть повторять

  • θ1'знак равноArgМаксимумθ1L(θ|SN)
  • найтиθ2'знак равноArgМаксимумθ2L(θ1',θ-1|SN)
  • ...
  • найтиθv'знак равноArgМаксимумθvL(θ-v',θv|SN)

если есть параметров и каждый шаг должен увеличивать значение целевой функции , но эта схема в лучшем случае окажется в том же режиме, что и EM-алгоритм.l ( θ | S n )vL(θ|SN)


Хорошо, L не ограничен, если дисперсия равна 0. Но если мы исключим их из возможных параметров (поэтому мы предполагаем, что вся дисперсия> 0), то L не должен быть таким высоким всякий раз, когда выбрана бесконечно малая дисперсия (из-за других точек). Я прав? Тогда для этого возможного набора параметров L будет ограничен, и это будет означать, что EM-алгоритм сходится (возрастающая ограниченная последовательность).
Ахстат

@ahstat: допущение, что отклонения строго положительны, не мешает ЭМ сходиться к вырожденному решению, если оно началось достаточно близко.
Сиань
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.