Как понять сверточную сеть глубокого убеждения для классификации аудио?


11

В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности изображения, такие как небольшие углы и края и т. Д.

В статье « Необучаемая функция обучения для классификации аудио с использованием сверточных сетей глубокого убеждения » Ли и соавт. и др. этот метод применяется для аудио в различных типах классификаций. Идентификация спикера, гендерная идентификация, классификация телефонов, а также музыкальный жанр / классификация артистов.

Как можно сверточную часть этой сети интерпретировать для аудио, как это можно объяснить для изображений как края?


У кого есть код для бумаги?

Ответы:


9

Приложение аудио представляет собой одномерное упрощение задачи классификации двумерных изображений. Фонема (например) - это звуковой аналог функции изображения, такой как ребро или круг. В любом случае такие признаки имеют существенную локализацию: они характеризуются значениями в относительно небольшой окрестности местоположения изображения или момента речи. Свертки - это контролируемая регулярная форма взвешенного усреднения значений в локальных окрестностях. Отсюда вытекает надежда на то, что сверточная форма DBN может быть успешной при выявлении и различении значимых признаков.


1

В случае сверточных RBM, применяемых к аудиоданным, авторы сначала взяли кратковременное преобразование Фурье, а затем определили энергетические полосы в спектре. Затем они применили сверточные RBM к преобразованному аудио.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.