В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности изображения, такие как небольшие углы и края и т. Д.
В статье « Необучаемая функция обучения для классификации аудио с использованием сверточных сетей глубокого убеждения » Ли и соавт. и др. этот метод применяется для аудио в различных типах классификаций. Идентификация спикера, гендерная идентификация, классификация телефонов, а также музыкальный жанр / классификация артистов.
Как можно сверточную часть этой сети интерпретировать для аудио, как это можно объяснить для изображений как края?