Я пытаюсь извлечь функции из звукового файла и классифицировать звук как принадлежащий к определенной категории (например: лай собаки, двигатель автомобиля и т. Д.). Я хотел бы получить некоторую ясность по следующим вопросам:
1) это вообще выполнимо? Существуют программы, которые могут распознавать речь и различать различные виды коры собак. Но возможно ли иметь программу, которая может получить звуковой пример и просто сказать, что это за звук? (Предположим, есть база данных, содержащая множество звуковых сэмплов). Образцы входного звука могут быть немного шумными (микрофонный вход).
2) Я предполагаю, что первый шаг - это извлечение аудио функций. В этой статье предлагается извлечь MFCC и использовать их для алгоритма машинного обучения. Достаточно ли MFCC? Есть ли другие функции, которые обычно используются для классификации звука?
Спасибо за уделенное время.