Почему алгоритм максимизации ожидания гарантированно сходится к локальному оптимуму?


24

Я прочитал несколько объяснений алгоритма EM (например, из Бишопа «Распознавание образов и машинное обучение» и из «Первого курса по машинному обучению» Роджера и Джеролами). Вывод ЭМ в порядке, я понимаю это. Я также понимаю, почему алгоритм охватывает что-то: на каждом шаге мы улучшаем результат, и вероятность ограничена 1,0, поэтому, используя простой факт (если функция увеличивается и ограничивается, то она сходится), мы знаем, что алгоритм сходится к какое-то решение.

Однако откуда мы знаем, что это локальный минимум? На каждом шаге мы рассматриваем только одну координату (скрытую переменную или параметры), поэтому мы можем что-то упустить, например, локальный минимум требует перемещения по обеим координатам одновременно.

Я полагаю, что эта проблема аналогична проблеме общего класса алгоритмов восхождения на гору, примером которой является EM. Таким образом, для общего алгоритма восхождения на гору мы имеем эту проблему для функции f (x, y) = x * y. Если мы начнем с (0, 0) точки, то, только рассматривая оба направления одновременно, мы сможем двигаться вверх от значения 0.


3
Вероятность ограничена только для фиксированных отклонений. То есть в биномиальной ситуации дисперсия равна ; или в гауссовой ситуации, если дисперсия считается известной. Если дисперсия неизвестна и должна быть оценена, вероятность не ограничена. Кроме того, в алгоритме EM существует общее разделение между отсутствующими параметрами и параметрами, по крайней мере для статистиков, занимающихся частыми исследованиями, но поверхности действительно могут иметь седла. p(1p)
StasK

@Stask Я не уверен, что вероятность, как правило, ограничена даже с фиксированными отклонениями. Вы ограничиваетесь какой-то конкретной семьей?
Glen_b

Ответы:


27

EM не гарантируется, чтобы сходиться к локальному минимуму. Гарантируется только сходиться к точке с нулевым градиентом по параметрам. Так что он действительно может застрять в седловых точках.


1
Для примеров, см. Стр. 20 и 38 здесь , стр. 85 здесь - попробуйте «седловую точку» в ридере Amazon.
StasK

13

Прежде всего, возможно, что EM сходится к локальному минимуму , локальному максимуму или седловой точке функции правдоподобия. Точнее, как отметил Том Минка , EM гарантированно сходится к точке с нулевым градиентом .

Я могу придумать два способа увидеть это; первый взгляд - чистая интуиция, а второй - набросок формального доказательства. Сначала я очень кратко объясню, как работает EM:

tbt(θ)L(θ)θt=argmaxθbt(θ)

Максимизация ожидания как градиентное восхождение

В каждой итерации EM требует, чтобы граница касалась функции правдоподобия при решении предыдущей итерации, т.е. что подразумевает, что их градиенты также одинаковы; то есть . Таким образом, EM по крайней мере так же хорош, как градиентное восхождение, потому что по крайней мере так же хорошо, как . Другими словами:b t L θ t - 1 g = b t ( θ t - 1 ) = L ( θ t - 1 ) θ t θ t - 1 + η gtbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

если EM сходится к то является сходящейся точкой и для градиентного всплытия, и EM удовлетворяет любому свойству, разделяемому решениями градиентного всплытия (включая нулевое значение градиента).θ θθ

Эскиз формального доказательства

Можно показать, что разрыв между границами и функцией правдоподобия сходится к нулю; то есть Можно доказать, что градиент границы также сходится к градиенту функции правдоподобия; то есть: Из-за и и того, что границы, используемые в EM, дифференцируемы, и что , у нас есть и, следовательно, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)lim t L ( θ t ) = 0bt(θt)=0limtL(θt)=0
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.