Связь между вариационным байесовским и ЭМ


26

Я где-то читал, что вариационный метод Байеса является обобщением алгоритма EM. Действительно, итерационные части алгоритмов очень похожи. Чтобы проверить, является ли алгоритм EM специальной версией Вариационного Байеса, я попробовал следующее:

  1. Y - данные, - коллекция скрытых переменных, а - параметры. В вариационном байесовском преобразовании мы можем сделать такое приближение, что . Где s - простые, поддающиеся распределению.Θ P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) QXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Поскольку EM-алгоритм находит точечную оценку MAP, я подумал, что вариационные байесовские преобразования могут сходиться к EM, если я использую дельта-функцию, такую ​​что: , - это первая оценка параметров, как это обычно делается в EM.Θ 1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Когда , который минимизирует расхождение KL, находится по формуле Приведенная выше формула упрощается до , этот шаг оказывается эквивалентом шага Ожидания алгоритма EM!Q 1 X ( X ) Q 1 X ( X ) = exp ( E δ Θ 1 [ ln P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) Q 1 X (X)=P(X|Θ1,Y)

    QИкс1(Икс)знак равноехр(ЕδΘ1[перп(Икс,Y,Θ)])ехр(ЕδΘ1[перп(Икс,Y,Θ)])dИкс
    QX1(X)=P(X|Θ1,Y)

Но я не могу вывести шаг Максимизации как продолжение этого. На следующем шаге нам нужно вычислить и в соответствии с правилом вариации Байеса это:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Действительно ли алгоритмы VB и EM действительно связаны таким образом? Как мы можем вывести ЭМ как частный случай вариационных байесовских колебаний, верно ли мое решение?


Где вы читали, что алгоритм EM находит оценку MAP? Взаимосвязь между вариационным выводом и ЭМ станет ясной, как только вы поймете точку зрения ЭМ, представленную в этой статье Нила и Хинтона (1998) . Смотрите также мой ответ здесь .
Лукас

Я думаю, что я изучил EM-алгоритм таким же образом, как объясняется в этой статье, он рассматривается как проблема максимизации нижней границы. Используя равенство Дженсена и вариационное исчисление, можно обнаружить, что на этапе ожидания - это распределение, которое максимизирует нижнюю границу для а на этапе максимизации можно найти , что является максимумом на нижней границе. Итак, это похоже на вариационный байесовский. (И это сходится к локальному максимуму маргинального апостериора, отсюда и оценка MAP)Θ t Θ t + 1 = a r g m a x Θ < ln P ( X , Y , Θ ) > P ( X | Θ t , Y )P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici

1
Извините, я недостаточно внимательно прочитал ваш вопрос. Я полагаю, что ваш шаг максимизации для вычисления действителен только в том случае, если вы разрешаете какое-либо распределение, то есть если вы только делаете предположение о факторизации. Но вы также предположили, что является дельта-распределением. Попробуйте явно максимизировать нижнюю границу относительно , параметра . Q 2 Θ Θ 2 Q 2 Θ ( Θ ) = δ Θ 2 ( Θ )QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Лукас

Я нашел на странице 21 презентации cs.cmu.edu/~tom/10-702/Zoubin-702.pdf сравнение EM и VB, аналогично с использованием функции Дирака. Но как VB сводится к EM, не дано.
Уфук Джан Бичичи

Ответы:


20

Ваш подход правильный. EM эквивалентно VB при условии, что приближенный апостериорный для ограничен точечной массой. (Это упоминается без доказательства на стр. 337 Байесовского анализа данных .) Пусть будет неизвестным местоположением этой точечной массы: VB будет минимизировать следующую KL-дивергенцию: Минимум над дает E-шаг EM, а минимум над дает M-шаг EM. ΘΘ*

QΘ(Θ)знак равноδ(Θ-Θ*)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Конечно, если бы вы действительно оценили расхождение KL, оно было бы бесконечным. Но это не проблема, если вы считаете дельта-функцию пределом.


EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Ибо Ян
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.