В чем разница между EM и Gradient Ascent?

В чем разница между алгоритмами EM (ожидание максимизации) и градиентного подъема (или спуска)? Есть ли условия, при которых они эквивалентны?

gradient-descent expectation-maximization

— Aslan986
источник

Ответы:

От:

Сюй Л. и Джордан М.И. (1996). О свойствах сходимости алгоритма ЭМ для гауссовых смесей . Нейронные вычисления 2: 129-151.

Аннотация:

Мы показываем, что шаг ЭМ в пространстве параметров получается из градиента через проекционную матрицу P, и мы предоставляем явное выражение для матрицы.

Страница 2

В частности, мы показываем, что шаг ЭМ можно получить, предварительно умножив градиент на положительную матрицу денита. Мы предоставляем явное выражение для матрицы ...

Страница 3

То есть, алгоритм EM можно рассматривать как алгоритм подъема градиента переменной метрики ...

Это означает, что в статье приводятся явные преобразования алгоритма EM в градиент-восхождение, ньютон, квазиньютон.

Из википедии

Существуют и другие методы нахождения оценок максимального правдоподобия, такие как градиентный спуск, сопряженный градиент или вариации метода Гаусса – Ньютона. В отличие от EM, такие способы обычно требуют оценки первой и / или второй производных функции правдоподобия.

— Рон Коулман
источник

Этот ответ, по-видимому, намекает на то, что EM и градиентный спуск - это в основном один и тот же алгоритм с доступными преобразованиями для переключения с одного алгоритма на другой. Это определенно неверно в целом и сильно зависит от принятой генеративной модели. В цитируемой статье делаются выводы только для моделей гауссовой смеси (которые являются относительно простыми порождающими моделями), и это справедливо. По моему (по общему признанию ограниченному) опыту, когда модель сильно нелинейна и роль скрытых переменных важна, EM - единственный способ получить разумные правила обновления.

— синий

Нет, они не эквивалентны. В частности, сходимость ЭМ значительно медленнее.

Если вас интересует точка зрения оптимизации на EM, в этой статье вы увидите, что алгоритм EM является частным случаем более широкого класса алгоритмов (алгоритмы проксимальной точки).

— Элвис
источник

Или для подобного рода идеи, Хинтон и Нил (1998)

— сопряженный

«EM сходимость намного медленнее»; это не очень хорошо определено, и, конечно, не всегда верно. EM-алгоритмы - это целый класс алгоритмов. Для многих задач, определенный EM алгоритм состояние техники.

— Клифф AB

@CliffAB, пожалуйста, не стесняйтесь подробно останавливаться на этом, я хотел бы прочитать ваши аргументы - поскольку я читаю этот ответ за 4 года, я понимаю, что не буду отвечать на это сегодня. С тех пор я обнаружил, что во многих случаях EM представляет собой градиентное восхождение с параметром «скорость обучения», зависящим от текущей точки ... (я могу отредактировать этот ответ через некоторое время, чтобы указать результаты такого рода)

— Элвис,

«Более медленная конвергенция» может быть определена в терминах скорости конвергенции. Скорость сходимости градиентного всплытия будет зависеть от «скорости обучения», которую нелегко выбрать, во многих случаях затрудняя градиентное всплытие. Однако у меня все еще есть внутреннее ощущение, что, хотя в некоторых случаях ЭМ может быть единственным выполнимым алгоритмом (производные вероятности или сама вероятность трудно вычислить), скорость его сходимости является низкой по сравнению с методом, подобным Ньютону.

— Элвис

«Алгоритм EM» - это действительно целый класс алгоритмов; тот, в котором оригинальную целевую функцию трудно оптимизировать, но если бы была известна какая- то другая переменная, решение было бы намного проще (обычно в закрытой форме). Основная схема заключается в том, чтобы заполнить ожидаемую переменную в зависимости от текущих значений других параметров, а затем обновить параметры на основе ожидаемого значения переменной. Было показано, что скорость схождения алгоритма зависит от того, насколько информативны вмененные данные; чем более «информативны» недостающие данные, тем медленнее сближение.

— Клифф А.Б.