Скрытые марковские модели и алгоритм максимизации ожидания

10

Может кто-нибудь уточнить, как скрытые марковские модели связаны с максимизацией ожиданий? Я перебрал много ссылок, но не смог получить четкое представление.

Спасибо!

markov-process expectation-maximization hidden-markov-model

— thchand
источник

12

Алгоритм EM (максимизация ожидания) - это общий алгоритм оптимизации функции правдоподобия в тех случаях, когда модель определяется вероятностно с точки зрения наблюдаемой и ненаблюдаемой (скрытой) составляющей. HMM (скрытые модели Маркова) являются моделями этой формы, потому что они имеют ненаблюдаемый компонент, скрытые состояния, и фактические наблюдения часто называют выбросами в терминологии HMM. Следовательно, HMM образуют класс моделей, для которых может быть полезен EM-алгоритм.

В общем случае, если модель состоит из двух компонентов , которые мы предполагаем, что для простоты принимаем значения в конечном пространстве, и если спецификация вероятностной модели состоит из вероятностей совместных точек Если параметризовано , то вероятность, что при наблюдении только равна $(X,Y)$ $p_{\theta}(x,y)$ $\theta$ $X = x$

L_{x} (θ) = \sum_{y} p_{θ} (x, y) .

$L_x(\theta) = \sum_{y} p_{\theta}(x,y).$ Хотя сумма выглядит невинной, это не так. Для HMM сумма будет по всем возможным переходам между скрытыми состояниями, которая быстро становится огромным числом, когда длина наблюдаемой последовательности увеличивается. К счастью, существуют алгоритмы для HMM (прямое-обратное) для быстрого вычисления вероятности, и затем вероятность, в принципе, может быть включена в любой алгоритм оптимизации общего назначения для оценки максимального правдоподобия . Альтернативой является EM-алгоритм. Это алгоритм, который итеративно чередует

θ

$\theta$

Е-шаг , который представляет собой вычисление условного ожидания с учетом наблюдаемой в соответствии с текущей оценкой $x$ $\theta$
М-шаг , который является максимизация

EM-алгоритм имеет смысл, если два вышеупомянутых шага могут быть реализованы вычислительно эффективным способом, например, когда у нас есть замкнутые выражения в форме для условного ожидания и максимизации.

Исторически сложилось так, что общий EM-алгоритм был приписан Dempster, Laird и Rubin , которые доказали в своей статье 1977 года, среди прочего, что алгоритм приводит к последовательности параметров с монотонно увеличивающимися значениями вероятности. Они также придумали термин «EM-алгоритм». Интересно, что EM-алгоритм для HMM был описан еще в 1970 году Baum et al. и также часто упоминается как алгоритм Баума-Уэлча в литературе HMM (я не знаю точно, что сделал Уэлч ...).

— NRH
источник

3

Уэлч изобрел то, что сейчас называется алгоритмом Баума-Уэлча (он называет это «легкой частью»); Баум математически доказывает, что алгоритм работает («сложная часть»). См. Courses.cs.tamu.edu/rgutier/cpsc689_s07/welch2003baumWelch.pdf для точных деталей.

— Михаил Коробов

@MikhailKorobov, спасибо за эту информативную ссылку.

— NRH

2

Максимизация ожиданий - это итерационный метод, используемый для выполнения статистического вывода на множестве различных порождающих статистических моделей, например, смеси гауссиан и других моделей типа байесовской сети. Единственная связь состоит в том, что HMM также являются байесовскими сетями. Но, вероятно, нельзя использовать EM на HMM, потому что в HMM есть точный алгоритм вывода, называемый алгоритмом Витерби. Поэтому, хотя кто-то может использовать EM для выполнения вывода на HMM, вы этого не сделаете, потому что для этого нет причин.

— Уильям
источник

4

Это не совсем точно, потому что вы смешиваете два разных типа «вывода». EM - алгоритм оценки неизвестных параметров, Витерби - алгоритм вычисления наиболее вероятной последовательности скрытых состояний. Вы действительно использовали бы EM для HMM для оценки параметров. Я дал более подробную информацию об алгоритме EM с историческими ссылками, объясняющими связь между HMM и EM в моем ответе.

— NRH

0

В HMM мы пытаемся оценить в основном три параметра:

Вероятности начального состояния. Это вектор с элементами, где - количество состояний. $K$ $K$
Матрица перехода. Это квадратная матрица размера . $K\times K$
Условные вероятности наблюдения предмета, обусловленные некоторым состоянием. Это также матрица размера , где - количество наблюдений. $K\times N$ $N$

Теперь EM-часть появляется, когда вы пытаетесь оценить количества / параметры, указанные выше. Начиная с некоторого случайного предположения, оценивают вероятность наблюдений и параметры корректируют итеративно, пока мы не получим максимальную вероятность. Итак, через HMM мы моделируем некоторый процесс, и для этого нам нужно ввести некоторые параметры. Для оценки параметров, EM отображается.

Это очень краткий ответ. Внедрение EM требует множества других подзадач для решения с помощью ряда методов. Для глубокого понимания настоятельно рекомендуется классическая учебная статья Rabiner.

— Риаз Хан
источник