Какое преобразование наиболее близко имитирует слуховую систему человека?


12

Преобразование Фурье обычно используется для частотного анализа звуков. Тем не менее, у него есть некоторые недостатки, когда дело доходит до анализа восприятия звука человеком. Например, его частотные интервалы являются линейными, тогда как человеческое ухо реагирует на частоту логарифмически, а не линейно .

Вейвлет-преобразования могут изменять разрешение для разных частотных диапазонов , в отличие от преобразования Фурье. Вейвлет - преобразование'S свойства позволяют большие временные опоры для более низких частот, сохраняя при этом короткие временные ширины для более высоких частот.

Morlet вейвлета тесно связана с человеческим восприятием слуха. Он может применяться к транскрипции музыки и дает очень точные результаты, которые невозможны при использовании методов преобразования Фурье. Он способен захватывать короткие серии повторяющихся и чередующихся музыкальных нот с четким временем начала и окончания для каждой ноты.

Преобразование с постоянным Q (тесно связанное с вейвлет-преобразованием Морле) также хорошо подходит для музыкальных данных . Поскольку выходной сигнал преобразования эффективно равен амплитуде / фазе относительно логарифмической частоты, для эффективного охвата заданного диапазона требуется меньше спектральных интервалов, и это оказывается полезным, когда частоты охватывают несколько октав.

Преобразование демонстрирует снижение разрешения по частоте с более высокими частотными бинами, что желательно для слуховых приложений. Он отражает слуховую систему человека, благодаря чему спектральное разрешение на низких частотах лучше, а временное разрешение улучшается на высоких частотах.

Мой вопрос заключается в следующем: существуют ли другие преобразования, которые близко имитируют слуховую систему человека? Кто-нибудь пытался разработать преобразование, которое анатомически / неврологически максимально соответствовало бы слуховой системе человека?

Например, известно, что уши человека имеют логарифмическую реакцию на интенсивность звука . Известно также, что контуры одинаковой громкости изменяются не только с интенсивностью, но и с разносом частот спектральных составляющих . Звуки, содержащие спектральные компоненты во многих критических полосах, воспринимаются как громкие, даже если общее звуковое давление остается постоянным.

Наконец, человеческое ухо имеет ограниченное по частоте временное разрешение . Возможно, это можно принять во внимание.


Вы накладываете какие-либо математические ограничения на «преобразование»?
Олли Нимитало,

2
Слава за все ссылки!
Жиль

Ни одно преобразование не может адекватно имитировать такую ​​сложную систему, как слуховая система человека. В существующих моделях HAS используются сложные архитектуры обработки сигналов, и для каждого преобразования моделируется несколько аспектов слуха. Может быть, вы хотите рассмотреть поэлементное моделирование.
Fat32

Ответы:


9

При разработке таких преобразований следует учитывать конкурирующие интересы:

  • верность слуховой системе человека (которая варьируется в зависимости от людей), включая нелинейные или даже хаотические аспекты (шум в ушах)
  • простота математической формулировки для части анализа
  • возможность дискретизировать или разрешить быстрые реализации
  • существование подходящего стабильного обратного

В последнее время меня привлекли два последних дизайна: вейвлет-преобразование гамма-тона, вызванное слухом , обработка сигналов, 2014

Способность непрерывного вейвлет-преобразования (CWT) обеспечивать хорошую локализацию времени и частоты сделала его популярным инструментом частотно-временного анализа сигналов. Вейвлеты обладают свойством постоянного Q, которым также обладают базилярные мембранные фильтры в периферической слуховой системе. Фильтры базилярной мембраны или слуховые фильтры часто моделируются функцией Gammatone, которая обеспечивает хорошее приближение к экспериментально определенным ответам. Набор фильтров, полученный из этих фильтров, называется набором фильтров Gammatone. В общем, вейвлет-анализ можно сравнить с анализом набора фильтров и, следовательно, интересной связью между стандартным вейвлет-анализом и набором фильтров Gammatone. Однако функция Gammatone не совсем подходит для вейвлета, потому что ее среднее время не равно нулю. Мы покажем, как истинные вейвлеты могут быть построены из функций Гамматона. Мы анализируем такие свойства, как допустимость, пропускная способность по времени, исчезающие моменты, которые особенно актуальны в контексте вейвлетов. Мы также показываем, как предлагаемые слуховые вейвлеты создаются как импульсный отклик линейной, инвариантной к сдвигу системы, управляемой линейным дифференциальным уравнением с постоянными коэффициентами. Предлагаем аналоговые схемы реализации предлагаемого ЦВТ. Мы также показываем, как вейвлеты, полученные из гамматона, можно использовать для обнаружения сингулярностей и частотно-временного анализа переходных сигналов. Мы также показываем, как предлагаемые слуховые вейвлеты создаются как импульсный отклик линейной, инвариантной к сдвигу системы, управляемой линейным дифференциальным уравнением с постоянными коэффициентами. Предлагаем аналоговые схемы реализации предлагаемого ЦВТ. Мы также показываем, как вейвлеты, полученные из гамматона, можно использовать для обнаружения сингулярностей и частотно-временного анализа переходных сигналов. Мы также показываем, как предлагаемые слуховые вейвлеты создаются как импульсный отклик линейной, инвариантной к сдвигу системы, управляемой линейным дифференциальным уравнением с постоянными коэффициентами. Предлагаем аналоговые схемы реализации предлагаемого ЦВТ. Мы также показываем, как вейвлеты, полученные из гамматона, можно использовать для обнаружения сингулярностей и частотно-временного анализа переходных сигналов.

Преобразование ERBlet: основанное на слухе частотно-временное представление с идеальной реконструкцией , ICASSP 2013

В этой статье описан метод получения воспринимаемого и полностью обратимого частотно-временного представления звукового сигнала. На основе теории фреймов и недавнего нестационарного преобразования Габора, линейное представление с разрешением, развивающимся по частоте, сформулировано и реализовано как неоднородный набор фильтров. Чтобы соответствовать частотно-временному разрешению слухового аппарата человека, преобразование использует гауссовские окна, расположенные на равном расстоянии друг от друга на психоакустической шкале частот «ERB». Кроме того, преобразование имеет адаптируемое разрешение и избыточность. Моделирование показало, что идеальная реконструкция может быть достигнута с использованием быстрых итерационных методов и предварительной обработки даже с использованием одного фильтра на ERB и очень низкой избыточностью (1,08).

И я также упомяну:

Аудиторское преобразование для обработки аудиосигнала, WASPAA 2009

Звуковое преобразование представлено в этой статье. В процессе анализа преобразование охватывает сигналы во временной области в набор выходных данных банка фильтров. Частотные характеристики и распределения банка фильтров аналогичны таковым в базилярной мембране улитки. Обработка сигналов может проводиться в разложенной области сигналов. Посредством процесса синтеза разложенные сигналы могут быть синтезированы обратно в исходный сигнал посредством простого вычисления. Также представлены быстрые алгоритмы для сигналов с дискретным временем как для прямого, так и для обратного преобразований. Преобразование было одобрено в теории и подтверждено в экспериментах. Приведен пример применения шумоподавления. Предлагаемое преобразование устойчиво к фоновым и вычислительным шумам и не содержит гармонических высот.


1
Это именно то, что я искал. Спасибо.
user76284
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.