Просто чтобы прояснить ситуацию - это свойство не фундаментально, а важно . Это принципиальная разница, когда речь идет об использовании DCT вместо DFT для расчета спектра.
Почему мы делаем Нормальную Сепстральную Нормализацию?
При распознавании динамика мы хотим убрать любые эффекты канала (импульсная характеристика голосового тракта, звуковой тракт, комната и т. Д.). При условии, что входной сигнал равен а импульсная характеристика канала задается как h [ n ] , записанный сигнал является линейной сверткой обоих:х [ н ]ч [ п ]
Y[ n ] = x [ n ] ⋆ h [ n ]
Принимая преобразование Фурье, мы получаем:
Y[ ф] = X[ ф] ⋅ H[ ф]
из-за свойства эквивалентности FT-умножения свертки - вот почему на этом шаге так важно свойство FFT .
Следующим шагом в расчете кепстра является логарифм спектра:
Y[ д] = журналY[ ф] = журнал( Х[ ф] ⋅ H[ ф] ) = X[ д] + H[ д]
потому что: . Очевидно, q является quefrency . Как можно заметить, взяв кепстр свертки во временной области, мы получим добавление в кепстральную (quefrency) область.журнал( а б ) = лог+ журналбQ
Что такое Нормальная Кепстральная Нормализация?
Теперь мы знаем, что в кепстральной области любые сверточные искажения представлены сложением. Давайте предположим, что все они являются стационарными (что является сильным допущением, поскольку голосовой тракт и отклик канала не изменяются), а стационарная часть речи незначительна. Мы можем наблюдать, что для каждого i-го кадра истина равна:
Yя[ д] = H[ д] + Xя[ д]
Взяв среднее по всем кадрам, мы получим
1NΣяYя[ д] = H[ д] + 1NΣяИкся[ д]
Определение разницы:
ря[ д]= Yя[ д] - 1NΣJYJ[ д]= H[ д] + Xя[ д] - ( H[ д] + 1NΣJИксJ[ д] )= Хя[ д] - 1NΣJИксJ[ д]
Мы заканчиваем с нашим сигналом с удаленными искажениями канала. Ввод всех приведенных выше уравнений в простой английский:
- Рассчитать кепстр
- Вычтите среднее из каждого коэффициента
- При желании делите на дисперсию для выполнения Нормальной Цепстральной Нормы в отличие от Вычитания.
Нужна ли средняя норма Cepstral?
Это не обязательно, особенно когда вы пытаетесь распознать одного оратора в одной среде. Фактически, это может даже ухудшить ваши результаты, так как подвержено ошибкам из-за аддитивного шума:
Y[ n ] = x [ n ] ⋆ h [ n ] + w [ n ]
Y[ ф] = X[ ф] ⋅ H[ ф] + W[ ф]
журналY[ ф] = журнал[ X[ ф] ( H[ ф] + W[ ф]Икс[ ф]) ] =журналИкс[ ф] + журнал( H[ ф] + W[ ф]Икс[ ф])
В условиях плохого ОСШ отмеченный срок может обогнать оценку.
Хотя, когда CMS выполняется, вы обычно можете получить несколько дополнительных процентов. Если вы прибавите к этому прирост производительности от производных коэффициентов, то вы получите реальное повышение вашей скорости распознавания. Окончательное решение остается за вами, особенно если учесть множество других методов, используемых для улучшения систем распознавания речи.