Что скрыто и что наблюдается
То, что скрыто в скрытой модели Маркова, то же самое, что и то, что скрыто в модели с дискретной смесью, поэтому для ясности забудем о динамике скрытого состояния и в качестве примера остановимся на модели конечной смеси. «Состояние» в этой модели - это идентичность компонента, вызвавшего каждое наблюдение. В этом классе моделей такие причины никогда не наблюдаются, поэтому «скрытая причина» статистически переводится в утверждение, что наблюдаемые данные имеют предельные зависимости, которые удаляются, когда известен исходный компонент. И исходные компоненты оцениваются как те, которые делают эти статистические отношения истинными.
В скрытой многослойной нейронной сети с сигмовидными средними единицами скрыта вещь этих состояний, а не выходы, являющиеся целью вывода. Когда выходные данные сети представляют собой классификацию, т. Е. Распределение вероятностей по возможным выходным категориям, эти значения скрытых единиц определяют пространство, в пределах которого категории могут быть разделены. Хитрость в изучении такой модели состоит в том, чтобы создать скрытое пространство (путем настройки отображения входных единиц), в котором задача является линейной. Следовательно, нелинейные границы решения возможны от системы в целом.
Генеративный или дискриминационный
Смешанная модель (и HMM) - это модель процесса генерирования данных, которую иногда называют вероятностной или «прямой моделью». В сочетании с некоторыми предположениями о предыдущих вероятностях каждого состояния вы можете определить распределение по возможным значениям скрытого состояния, используя теорему Байеса (генеративный подход). Обратите внимание, что, хотя он и называется «предыдущим», как предшествующий, так и параметры вероятности обычно извлекаются из данных.
В отличие от смешанной модели (и НММ) нейронная сеть изучает апостериорное распределение по выходным категориям напрямую (дискриминационный подход). Это возможно, потому что выходные значения наблюдались во время оценки. И поскольку они наблюдались, нет необходимости строить апостериорное распределение из предшествующей и конкретной модели для вероятности, такой как смесь. Апостериорные данные изучаются непосредственно из данных, которые являются более эффективными и менее зависимыми от модели.
Смешивать и сочетать
Чтобы сделать вещи более запутанными, эти подходы могут быть смешаны вместе, например, когда иногда фактически наблюдается состояние смешанной модели (или HMM). Когда это так, и в некоторых других обстоятельствах, не относящихся к делу, можно обучать дискриминационной модели в целом. Аналогичным образом, можно заменить отображение смешанной модели НММ более гибкой прямой моделью, например нейронной сетью.
Вопросы
Так что не совсем верно, что обе модели предсказывают скрытое состояние. HMM могут использоваться для прогнозирования скрытого состояния, хотя и того типа, которого ожидает прямая модель. Нейронные сети могут использоваться для прогнозирования еще не наблюдаемого состояния, например, будущих состояний, для которых доступны предикторы. Такое состояние в принципе не скрыто, просто оно еще не наблюдалось.
Когда бы вы использовали один, а не другой? Ну, по моему опыту, нейронные сети делают довольно неудобные модели временных рядов. Они также предполагают, что вы заметили результат. HMM не знает, но вы на самом деле не можете контролировать, что же такое скрытое состояние. Тем не менее, они являются подходящими моделями временного ряда.