Я думаю, что различие, которое вы ищете, больше похоже на эмпирическое и теоретическое (в отличие от контролируемого и неконтролируемого), но я могу ошибаться в этом. Другими словами, идеальным вариантом было бы теоретическое определение различных жанров, а не просто набор непрозрачных данных, которые можно использовать для классификации песни [без какого-либо реального понимания].
Тем не менее, для общей классификации жанров, вы, вероятно, застряли, по крайней мере, в обучении на примерах, даже если просто создать определения жанров в первую очередь. Что касается вашего примера, подумайте о том, как часто люди будут спорить [на YouTube] о том, является ли данный трек действительно дабстепом (например, любой трек, который более даббит и менее шаткий , даже если жанр начинался без какого-либо реального колебания). Люди определяют жанры с течением времени с помощью примеров, поэтому разумно ожидать, что алгоритмы, которые воспроизводят такое поведение, также потребуют некоторых примеров. То, как люди описывают жанры, почти как векторный признак в любом случае - они задают список вопросов о песне (например, она более прерывистая или шаткая? В ней много суб-баса? Как долго? Каков темп? Есть ли вокал? и т. д.).
Конечно, вы можете выбрать список функций, которые также обеспечивают интуитивное понимание жанра. Такая функция, как «Динамический диапазон» - это то, что человек может обнаружить на слух, но что-то вроде «Пересечения нуля во временной области» не будет очень интуитивно понятным, даже если он хорошо работает для классификации. Следующая статья имеет несколько функций, которые могут быть вам интересны:
Джордж Цанетакис, Перри Р. Кук: Музыкальная жанровая классификация звуковых сигналов. IEEE Транзакции по обработке речи и аудио 10 (5): 293-302 (2002) ссылка .
Для измерения шероховатости лучше всего начать с психоакустической шероховатости , но этого может быть недостаточно, например, для разграничения дабстепов и электроотводов. Для более тонких различий стоит обратить внимание на распознавание тембров . Следующий тезис имеет достойный обзор методов:
TH Park, «На пути к автоматическому распознаванию тембра музыкальных инструментов», канд. диссертация, Принстонский университет, Нью-Джерси, 2004. ссылка .
Существует также модель, связанная с шероховатостью восприятия в тембре, настройке, спектре и шкале, которая используется для построения пользовательских шкал для произвольных тембров. Идея состоит в том, что гармоники, которые находятся очень близко друг к другу, создают частоты биений, которые воспринимаются как диссонанс. Перефразируя из Приложений F и E ,
Когда представляет собой спектр с частями на частотах , собственный диссонанс [в предположении единичных амплитуд]Ff1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
где
d(x)=e−3.5x−e−5.75x
является моделью кривой Plomp-Levelt .
Он используется для измерения того, насколько приятен данный аккорд по отношению к тембру (путем минимизации диссонанса). Я не знаю, будет ли грубость психоакустического разнообразия или внутренний диссонанс быть очень плодотворными для ваших собственных целей, но они могут быть полезны в сочетании с другими показателями.
Возможно, вам удастся более математически классифицировать тембры, чем жанры. Например, струны имеют четные и нечетные гармоники, но кларнет имеет только нечетные гармоники (ср. Пилообразная волна , прямоугольная волна ). Колебание дабстепа, как правило, выполняется с помощью LFO-управляемых фильтров (фильтры нижних частот и / или формант), поэтому что-то вроде Spectral Flux (см. [Tzanetakis] выше) может быть хорошей отправной точкой в качестве функции. Однако я сомневаюсь, что кто-нибудь еще изучал математическую классификацию вобуляции;)