Почему оптимизация смеси гауссов напрямую в вычислительном отношении трудна?

18

Рассмотрим логарифмическую вероятность смешения гауссиан:

L (S_{N}; θ) знак равно Σ_{T знак равно 1}^{N} журнал е ({Икс}^{(T)} | θ) знак равно Σ_{T знак равно 1}^{N} журнал {Σ_{я знак равно 1}^{К} п_{я} е ({Икс}^{(T)} | μ^{(я)}, σ_{я}^{2})}

$l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\}$

Мне было интересно, почему в вычислительном отношении было трудно максимизировать это уравнение напрямую? Я искал либо ясную твердую интуицию о том, почему должно быть очевидно, что это сложно, либо, может быть, более строгое объяснение, почему это сложно. Эта проблема NP-полная или мы просто еще не знаем, как ее решить? Это причина, по которой мы прибегаем к использованию алгоритма EM ( ожидание-максимизация )?

Обозначения:

$S_n$ = тренировочные данные.

$x^{(t)}$ = точка данных.

$\theta$ = набор параметров, задающих гауссиан, их средние значения, стандартные отклонения и вероятность генерации точки из каждого кластера / класса / гаусса.

$p_i$ = вероятность генерации точки из кластера / класса / гауссова i.

machine-learning gaussian-mixture expectation-maximization

— Пиноккио
источник

14

Во-первых, GMM - это особый алгоритм кластеризации, где вы пытаетесь найти оптимальную маркировку ваших наблюдений. Имея возможных классов, это означает, что есть возможных обозначений ваших тренировочных данных. Это становится уже огромным для умеренных значений и . $n$ $k$ $k^n$ $k$ $n$

Во-вторых, функционал, который вы пытаетесь минимизировать, не является выпуклым, и вместе с размером вашей проблемы делает его очень сложным. Я только знаю, что k-means (GMM можно рассматривать как мягкую версию kmeans) является NP-сложным. Но я не знаю, было ли это доказано и для GMM.

Чтобы увидеть, что проблема не является выпуклой, рассмотрим одномерный случай: и убедитесь, что вы не можете гарантировать, что

L = \log (e^{- (x / σ_{1})^{2}} + e^{- (x / σ_{2})^{2}})

$L = \log \left(e^{-({x}/{\sigma_{1}})^2} + e^{-({x}/{\sigma_{2}})^2}\right)$

для всех x.

\frac{d^{2} L}{d x^{2}} > 0

$\frac{d^2L}{dx^2} > 0$

Наличие невыпуклой проблемы означает, что вы можете застрять в локальных минимумах. В общем, у вас нет сильных гарантий в отношении выпуклой оптимизации, и поиск решения также намного сложнее.

— jpmuc
источник

3

Что касается второго пункта: k-means можно рассматривать как частный случай GMM (точнее, предельный случай, когда дисперсии сводятся к нулю). Если мы можем уменьшить K-средства до соответствия GMM, последний также должен быть NP-трудной проблемой.

— Лукас

1

@Lucas: Вот перекрестная проверка ссылки на ваше замечание.

— Сиань

7

В дополнение к пунктам Джуампы, позвольте мне сообщить о следующих трудностях:

Функция не ограничена, поэтому истинный максимум и соответствует (к примеру) и . Поэтому истинный максимизатор должен заканчиваться этим решением, которое бесполезно для целей оценки. $l(\theta|S_n)$ $+\infty$ $\hat\mu^{(i)}=x_1$ $\hat\sigma_i=0$
$k^n$ $l(\theta|S_n)$ $\theta$

взято из моей книги .

Дополнительное замечание: без вызова EM-алгоритма можно использовать стандартный алгоритм оптимизации (например, Ньютона-Рафсона) по одному параметру за раз, то есть повторять

$\theta_1^\prime=\arg\max_{\theta_1} l(\theta|S_n)$
найти $\theta_2^\prime=\arg\max_{\theta_2} l(\theta_1^\prime,\theta_{-1}|S_n)$
...
найти $\theta_v^\prime=\arg\max_{\theta_v} l(\theta_{-v}^\prime,\theta_v|S_n)$

если есть параметров и каждый шаг должен увеличивать значение целевой функции , но эта схема в лучшем случае окажется в том же режиме, что и EM-алгоритм. $v$ $l(\theta|S_n)$

— Сиань
источник

Хорошо, L не ограничен, если дисперсия равна 0. Но если мы исключим их из возможных параметров (поэтому мы предполагаем, что вся дисперсия> 0), то L не должен быть таким высоким всякий раз, когда выбрана бесконечно малая дисперсия (из-за других точек). Я прав? Тогда для этого возможного набора параметров L будет ограничен, и это будет означать, что EM-алгоритм сходится (возрастающая ограниченная последовательность).

— Ахстат

@ahstat: допущение, что отклонения строго положительны, не мешает ЭМ сходиться к вырожденному решению, если оно началось достаточно близко.

— Сиань