В настоящее время я работаю над воссозданием результатов этой статьи . В статье они описывают метод использования CNN для извлечения признаков и имеют акустическую модель, которая является Dnn-хмм и предварительно обученной с использованием RBM.
В разделе III подраздела А изложены различные способы представления входных данных. Я решил вертикально расположить спектральные графики статических, дельта и дельта дельт.
Затем в документе описывается, какой должна быть сеть. Они утверждают, что используют сверточную сеть, но ничего о структуре сети? Более того, всегда ли сеть называют сверточным слоем? который, я уверен, я вижу какую-то разницу по сравнению с обычной сетевой сверточной нейронной сетью (cnn).
В документе говорится о разнице:
(из раздела III подраздела B)
Однако сверточный слой отличается от стандартного полностью связанного скрытого слоя в двух важных аспектах. Во-первых, каждая сверточная единица получает вход только из локальной области ввода. Это означает, что каждый блок представляет некоторые особенности локальной области ввода. Во-вторых, единицы сверточного слоя сами могут быть организованы в несколько карт объектов, где все элементы в одной и той же карте объектов имеют одинаковые веса, но получают входные данные из разных мест нижнего уровня.
Еще одна вещь, которая меня интересует, заключается в том, действительно ли в документе указывается, сколько выходных параметров необходимо для подачи акустической модели dnn-hmm. Кажется, я не могу декодировать количество фильтров, размеры фильтров .. в общих чертах сети?