Я разработал концептуальную систему для распознавания звука с использованием моделей mfcc и скрытых марков. Это дает многообещающие результаты, когда я тестирую систему на известные звуки. Хотя система, когда вводится неизвестный звук, возвращает результат с наиболее близким соответствием, и оценка не настолько отлична, чтобы придумать, это неизвестный звук, например:
Я подготовил 3 скрытых марковских модели: одну для речи, одну для воды, выходящей из водопроводного крана, и одну для стука по столу. Затем я проверяю их на невидимых данных и получаю следующие результаты:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Here the input is an unknown sound but it still returns the closest match as there is no system for thresholding/garbage filtering.
Я знаю, что при определении ключевого слова звук OOV (вне словаря) может быть отфильтрован с использованием модели мусора или наполнителя, но он говорит, что он обучается с использованием конечного набора неизвестных слов, где это не может быть применено к моей системе, как я делаю Не знаю всех звуков, которые система может записать.
Как подобная проблема решается в системе распознавания речи? И как я могу решить мою проблему, чтобы избежать ложных срабатываний?