Я прочитал несколько объяснений алгоритма EM (например, из Бишопа «Распознавание образов и машинное обучение» и из «Первого курса по машинному обучению» Роджера и Джеролами). Вывод ЭМ в порядке, я понимаю это. Я также понимаю, почему алгоритм охватывает что-то: на каждом шаге мы улучшаем результат, и вероятность ограничена 1,0, поэтому, используя простой факт (если функция увеличивается и ограничивается, то она сходится), мы знаем, что алгоритм сходится к какое-то решение.
Однако откуда мы знаем, что это локальный минимум? На каждом шаге мы рассматриваем только одну координату (скрытую переменную или параметры), поэтому мы можем что-то упустить, например, локальный минимум требует перемещения по обеим координатам одновременно.
Я полагаю, что эта проблема аналогична проблеме общего класса алгоритмов восхождения на гору, примером которой является EM. Таким образом, для общего алгоритма восхождения на гору мы имеем эту проблему для функции f (x, y) = x * y. Если мы начнем с (0, 0) точки, то, только рассматривая оба направления одновременно, мы сможем двигаться вверх от значения 0.