EM, есть ли интуитивное объяснение?


16

Процедура EM кажется непосвященным более или менее черной магией. Оцените параметры HMM (например), используя контролируемые данные. Затем декодируйте непомеченные данные, используя прямую перемотку назад для «подсчета» событий, как если бы данные были помечены, более или менее. Почему это делает модель лучше? Я кое-что знаю о математике, но я продолжаю хотеть какую-то мысленную картину.


Я не уверен, но я думаю, что это можно интерпретировать как процедуру оптимизации стохастического градиентного спуска. Я подумаю об этом ...
Робин Жирар

Ответы:


12

Просто чтобы сохранить некоторую типизацию, назовите наблюдаемые данные , отсутствующие данные Z (например, скрытые состояния HMM) и вектор параметров, который мы пытаемся найти Q (например, вероятности перехода / излучения).XZQ

Интуитивное объяснение состоит в том, что мы в основном обманываем, притворяясь, что на мгновение знаем, что чтобы мы могли найти условное распределение Z, которое, в свою очередь, позволяет нам найти MLE для Q (на данный момент игнорируя тот факт, что мы в основном делаем круговой аргумент), затем признайте, что мы обманули, добавили наше новое, лучшее значение для Q и повторяем все до тех пор, пока нам больше не придется обманывать.QQQ

Чуть более технически, притворяясь, что мы знаем реальное значение , мы можем притвориться, что знаем что-то об условном распределении Z | { X , Q } , что позволяет нам улучшить нашу оценку для Q , которую мы теперь притворяемся, является реальным значением для Q, поэтому мы можем притворяться, что знаем кое-что об условном распределении Z | { X , Q } , что позволяет нам улучшить нашу оценку для Q , которая ... и так далее.QZ|{X,Q}QQZ|{X,Q}Q

Еще более технически, если бы мы знали , мы могли бы максимизировать log ( f ( Q | X , Z ) ) и получить правильный ответ. Проблема в том, что мы не знаем Z , и любая оценка для Q должна зависеть от него. Но если мы хотим найти лучшую оценку (или распределение) для ZZlog(f(Q|X,Z))ZQZ , то мы должны знать , и Q . Мы застряли в ситуации "курица с яйцом", если мы хотим аналитически получить уникальный максимизатор.XQ

Наш «выход» в том, что - для любой оценки (назовите его Q n ) - мы можем найти распределение Z | { Q n , X } , и поэтому мы можем максимизировать нашу ожидаемую совместную логарифмическую вероятность Q | { X , Z } относительно условного распределения Z | { Q n , X } . Это условное распределение в основном говорит нам, как Z зависит от текущего значения Q, заданного XQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQX , и позволяет нам знать, как изменить чтобы увеличить нашу вероятность для обоихQ и Z одновременно для определенного значения Q (которое мы назвали Q n ). Как только мы выбрали новый Q n + 1 , у нас есть другое условное распределение для Z | { Q n + 1 , X } и так должны пересчитать ожидание.QZQQnQn+1Z|{Qn+1,X}

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.