Извлечение функций для классификации звука


15

Я пытаюсь извлечь функции из звукового файла и классифицировать звук как принадлежащий к определенной категории (например: лай собаки, двигатель автомобиля и т. Д.). Я хотел бы получить некоторую ясность по следующим вопросам:

1) это вообще выполнимо? Существуют программы, которые могут распознавать речь и различать различные виды коры собак. Но возможно ли иметь программу, которая может получить звуковой пример и просто сказать, что это за звук? (Предположим, есть база данных, содержащая множество звуковых сэмплов). Образцы входного звука могут быть немного шумными (микрофонный вход).

2) Я предполагаю, что первый шаг - это извлечение аудио функций. В этой статье предлагается извлечь MFCC и использовать их для алгоритма машинного обучения. Достаточно ли MFCC? Есть ли другие функции, которые обычно используются для классификации звука?

Спасибо за уделенное время.

Ответы:


15
  1. Длинным выстрелом это выполнимо - до какой степени? Ты увидишь. Эта задача классификации звуков окружающей среды не очень хорошо изучена. Также крайне важен выбор парадигмы машинного обучения - статистический подход или, возможно, двоичный классификатор? Вы можете начать с GMM, ANN и SVM - я выбираю GMM и ANN.
  2. Да, большинство людей используют MFCC, потому что они хорошо коррелируют с тем, что на самом деле слышат люди, и с тех пор никто не придумал ничего лучшего. Вы также можете добавить дополнительные функции, такие как дескрипторы MPEG-7. Надлежащая оптимизация функции должна быть выполнена, потому что иногда вам не нужно так много функций, особенно когда они не разделяются. Для получения дополнительной информации, пожалуйста, обратитесь к моим предыдущим ответам:

Извлечение признаков из спектра

MFCC добыча

Обнаружение звуков


Я расширю свой ответ вечером.
jojek

все еще жду расширенного ответа ...
Nithin

Вечером ...
Jojek

4

Невербальное Аудио (не говоря уже об окружающей среде) кажется младшим братом для основных типов машинного обучения, таких как изображения, речь, текст.

Чтобы ответить на ваш вопрос, можно ли обучить сеть, чтобы идентифицировать данный звук? Да, это так! Но это трудно по тем же причинам, по которым машинное обучение сложно.

Однако то, что действительно сдерживает Аудио, и почему я называю его младшим братом по изображениям и речи, это из-за того, что у Аудио нет крупномасштабного маркированного набора данных. Для речи есть TIMIT, для изображений - несколько ImagenNet, CIFAR, Caltech, для обработки текста и естественного языка - огромное количество литературы и т. Д.

Насколько мне известно, двумя самыми крупными невербальными * помеченными человеком * наборами аудиоданных являются наборы данных UrbanSounds и ESC-100, которые слишком малы для действительно глубоких подходов к обучению. Есть несколько опубликованных смешанных результатов по этим наборам данных с использованием двухслойной ConvNet.

Функции MFCC представляют собой хорошо зарекомендовавшее себя базовое представление функций распознавания речи и анализа звука в целом. Но есть множество других аудио представлений! Эта статья дает хорошую классификацию типов аудиофункций.

Самая захватывающая работа по классификации звука, которую я недавно видел, выполняется некоторыми людьми из DeepMind под названием WaveNet .


3

Вот решение для классификации звука для 10 классов: лай собаки, автомобильный гудок, игра детей и т. Д. Оно основано на библиотеке тензорного потока с использованием нейронных сетей. Особенности извлекаются путем преобразования звуковых клипов в спектрограмму


3
просто ссылки не достаточно хороши в качестве ответа.
Жиль

Да, пожалуйста, уточните, что говорит ссылка.
Питер К.

2
Но спасибо за ссылку все же.
Кевин Мартин Хосе

На самом деле я также пытаюсь понять больше о методах, используемых в руководстве, представленном в ссылке. Мои знания в области звуковых сигналов очень ограничены, так как я - специалист по компьютерному зрению и обработке изображений. Я постараюсь более подробно остановиться на ответе, когда у меня появится лучшее понимание.
abggcv

1

Да, это чрезвычайно выполнимо. Хотя NN превосходны в такого рода обучении классификации, они могут даже не быть необходимыми - с хорошо подобранным набором функций, вероятно, подойдут только классические алгоритмы кластеризации, такие как модель гауссовой смеси или анализ главных компонентов. , Современные библиотеки могут сделать это правильно в 95% случаев и даже чаще.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.