Я искал возможность классифицировать звук (например, звуки животных), используя спектрограммы. Идея состоит в том, чтобы использовать глубоко сверточные нейронные сети, чтобы распознавать сегменты в спектрограмме и выводить одну (или несколько) меток классов. Это не новая идея (см., Например, классификацию звуков китов или распознавание музыкального стиля ).
Проблема, с которой я сталкиваюсь, заключается в том, что у меня есть звуковые файлы разной длины и, следовательно, спектрограммы разных размеров. Пока что каждый подход, который я видел, использует сэмпл фиксированного размера, но я не могу этого сделать, потому что мой звуковой файл может быть 10 секунд или 2 минуты.
Например, со звуком птицы в начале и звуком лягушки в конце (вывод должен быть «Птица, лягушка»). Моим текущим решением было бы добавить временный компонент в нейронную сеть (создавая больше повторяющейся нейронной сети), но я хотел бы пока сделать его простым. Есть идеи, ссылки, учебники, ...?