Распознавание образов для временных данных

9

Я пытаюсь обнаружить и классифицировать неречевые звуки. В настоящее время я использую ряд движущихся перекрывающихся спектров мощности из обучающих звуков в качестве функций, которые я ищу.

Когда я делаю анализ, я просто вычисляю одинаковое количество перекрывающихся спектров, чтобы число функций было одинаковым. На данный момент производительность не очень хорошая, она может обнаружить только тишину против безмолвия.

Какие методы существуют для этого типа обнаружения сигнала? Одна из моих проблем заключается в том, что для звуков разной длины во временной области могут быть разные длины векторов объектов, что не позволяет использовать один и тот же классификатор, но я застрял на этом.

audio

— cufmo
источник

3

Вы пытаетесь обнаружить речь и неречь, или есть классы неречевых звуков, от которых вы пытаетесь отличить? Мне не понятно из твоего вопроса.

Я думаю, что приемлемым первым подходом будет блокирование вашего сигнала в кадрах и вычисление коэффициентов перестройки частоты Mel (MFCC), а также дельта-MFCC (различия между MFCC соседних кадров) и дельта-дельта MFCC (различия между MFCC в кадрах, которые находятся на расстоянии двух кадров). Это не единственный способ сделать это, но без более конкретного знания проблемной области, это, вероятно, хорошее место для начала.

Просто поиск в Google должен дать вам хороший совет о том, как вычислять MFCC, если вы еще не знакомы с ними. По сути, вы берете ДПФ, берете величины, вычисляете энергии внутри треугольных окон, соответствующих слуху человека, берете DCT этих коэффициентов, по существу, как шаг сжатия, а затем отбрасываете коэффициенты высокого порядка, обычно принимая только первые двенадцать коэффициентов. , У меня есть объяснение значения шага DCT в этом посте: Как мне интерпретировать шаг DCT в процессе извлечения MFCC?

Затем вы можете, скажем, использовать эти коэффициенты как функции для SVM.

— schnarf
источник

2

Я думаю, что вы обычно смотрите на проблему распознавания речи , которая существовала всегда, и к настоящему времени разработано множество способов сделать это. Похоже, что в этой статье , например, также используются спектральные методы, поэтому вы можете начать с нее. Старый добрый поиск Google вернет много результатов со ссылками на статьи и статьи.

Как правило, есть два разных подхода к обнаружению речи. Один допускает предположение о хорошем отношении речи к шуму (голос громче окружающего шума, музыки, другого несоответствующего контента), а другой не делает таких допущений и пытается идентифицировать присутствие речи в очень шумных сигналах (речь скрыта в шум). В зависимости от того, что вы пытаетесь сделать, вы в конечном итоге посмотрите на разные бумаги. Возможно, если вы немного проясните свой вопрос и уточните типы речевых сигналов, с которыми вы работаете, этот сайт мог бы вам помочь.

— Phonon
источник