В чем разница между EM и Gradient Ascent?


28

В чем разница между алгоритмами EM (ожидание максимизации) и градиентного подъема (или спуска)? Есть ли условия, при которых они эквивалентны?

Ответы:


21

От:

Сюй Л. и Джордан М.И. (1996). О свойствах сходимости алгоритма ЭМ для гауссовых смесей . Нейронные вычисления 2: 129-151.

Аннотация:

Мы показываем, что шаг ЭМ в пространстве параметров получается из градиента через проекционную матрицу P, и мы предоставляем явное выражение для матрицы.

Страница 2

В частности, мы показываем, что шаг ЭМ можно получить, предварительно умножив градиент на положительную матрицу денита. Мы предоставляем явное выражение для матрицы ...

Страница 3

То есть, алгоритм EM можно рассматривать как алгоритм подъема градиента переменной метрики ...

Это означает, что в статье приводятся явные преобразования алгоритма EM в градиент-восхождение, ньютон, квазиньютон.

Из википедии

Существуют и другие методы нахождения оценок максимального правдоподобия, такие как градиентный спуск, сопряженный градиент или вариации метода Гаусса – Ньютона. В отличие от EM, такие способы обычно требуют оценки первой и / или второй производных функции правдоподобия.


5
Этот ответ, по-видимому, намекает на то, что EM и градиентный спуск - это в основном один и тот же алгоритм с доступными преобразованиями для переключения с одного алгоритма на другой. Это определенно неверно в целом и сильно зависит от принятой генеративной модели. В цитируемой статье делаются выводы только для моделей гауссовой смеси (которые являются относительно простыми порождающими моделями), и это справедливо. По моему (по общему признанию ограниченному) опыту, когда модель сильно нелинейна и роль скрытых переменных важна, EM - единственный способ получить разумные правила обновления.
синий

9

Нет, они не эквивалентны. В частности, сходимость ЭМ значительно медленнее.

Если вас интересует точка зрения оптимизации на EM, в этой статье вы увидите, что алгоритм EM является частным случаем более широкого класса алгоритмов (алгоритмы проксимальной точки).


2
Или для подобного рода идеи, Хинтон и Нил (1998)
сопряженный

2
«EM сходимость намного медленнее»; это не очень хорошо определено, и, конечно, не всегда верно. EM-алгоритмы - это целый класс алгоритмов. Для многих задач, определенный EM алгоритм состояние техники.
Клифф AB

@CliffAB, пожалуйста, не стесняйтесь подробно останавливаться на этом, я хотел бы прочитать ваши аргументы - поскольку я читаю этот ответ за 4 года, я понимаю, что не буду отвечать на это сегодня. С тех пор я обнаружил, что во многих случаях EM представляет собой градиентное восхождение с параметром «скорость обучения», зависящим от текущей точки ... (я могу отредактировать этот ответ через некоторое время, чтобы указать результаты такого рода)
Элвис,

«Более медленная конвергенция» может быть определена в терминах скорости конвергенции. Скорость сходимости градиентного всплытия будет зависеть от «скорости обучения», которую нелегко выбрать, во многих случаях затрудняя градиентное всплытие. Однако у меня все еще есть внутреннее ощущение, что, хотя в некоторых случаях ЭМ может быть единственным выполнимым алгоритмом (производные вероятности или сама вероятность трудно вычислить), скорость его сходимости является низкой по сравнению с методом, подобным Ньютону.
Элвис

«Алгоритм EM» - это действительно целый класс алгоритмов; тот, в котором оригинальную целевую функцию трудно оптимизировать, но если бы была известна какая- то другая переменная, решение было бы намного проще (обычно в закрытой форме). Основная схема заключается в том, чтобы заполнить ожидаемую переменную в зависимости от текущих значений других параметров, а затем обновить параметры на основе ожидаемого значения переменной. Было показано, что скорость схождения алгоритма зависит от того, насколько информативны вмененные данные; чем более «информативны» недостающие данные, тем медленнее сближение.
Клифф А.Б.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.