Простой ответ заключается в том, что система с плоской частотной характеристикой, построенная с операционными усилителями для коррекции реакции драйвера, обязательно будет иметь очень неплоскую фазовую характеристику в полосе пропускания. Эта неплоскостность означает, что частотные составляющие переходных звуков становятся неравномерно задержанными, что приводит к тонким переходным искажениям, которые мешают правильному распознаванию звуковых компонентов, что означает, что можно различить меньшее количество отдельных звуков.
Следовательно, это звучит ужасно. Как будто весь звук исходит от нечеткого шара, сосредоточенного точно между ушами.
Проблема HRTF в ответе выше - только часть этого - другая в том, что реализуемая схема аналоговой области может иметь только каузальную временную характеристику, и для правильного исправления драйвера нужен акаузальный фильтр.
Это может быть аппроксимировано в цифровом виде с помощью фильтра Finite Impulse Response с согласованным драйвером, но для этого требуется небольшая задержка по времени, которая достаточна для того, чтобы фильмы были очень несинхронными.
И по-прежнему звучит так, будто он исходит из вашей головы, если только HRTF также не добавлен обратно.
Так что все не так просто.
Чтобы создать «прозрачную» систему, вам не нужна просто полоса пропускания в диапазоне человеческого слуха, вам также нужна линейная фаза - график задержки плоской группы - и есть некоторые свидетельства того, что эта линейная фаза нуждается продолжать до удивительно высокой частоты, чтобы сигналы направления не терялись.
Это легко проверить экспериментально: откройте файл .wav с какой-либо музыкой, с которой вы знакомы, в редакторе звуковых файлов, например Audacity или snd, и удалите один сэмпл 44100 Гц только из одного канала, а затем перенастройте другой канал так, чтобы первый сэмпл теперь происходит со вторым отредактированным каналом и воспроизводит его.
Вы услышите очень заметную разницу, даже если разница составляет всего 1/4100 секунды.
Примите во внимание следующее: звук идет со скоростью 340 мм / мс, поэтому при 20 кГц это временная ошибка плюс минус одна задержка выборки или 50 микросекунд. Это 17 мм прохождения звука, но вы можете услышать разницу с отсутствующими 22,67 микросекундами, что составляет всего 7,7 мм прохождения звука.
Абсолютное ограничение человеческого слуха обычно считается около 20 кГц, так что же происходит?
Ответ заключается в том, что тесты слуха проводятся с тестовыми сигналами, которые в основном состоят только из одной частоты за раз, в течение достаточно длительного времени в каждой части теста. Но наши внутренние уши состоят из физической структуры, которая выполняет своего рода БПФ, воздействуя на нейроны, так что нейроны в разных положениях соотносятся с разными частотами.
Отдельные нейроны могут перезапускать только так быстро, поэтому в некоторых случаях некоторые из них используются один за другим, чтобы не отставать ... но это работает только примерно до 4 кГц или около того ... Что именно там, где наши Восприятие тона заканчивается. И все же в мозгу нет ничего, что могло бы остановить запуск нейрона в любое время, когда он чувствовал себя таким склонным, так какая же самая высокая частота имеет значение?
Дело в том, что крошечная разность фаз между ушами ощутима, но вместо того, чтобы изменить способ идентификации звуков (по их спектрографической структуре), он влияет на то, как мы воспринимаем их направление. (что и HRTF тоже меняет!) Даже если кажется, что его нужно «выкатить» из нашего диапазона слуха.
Ответ заключается в том, что точка -3 дБ или даже -10 дБ все еще слишком низка - вам нужно приблизиться к точке -80 дБ, чтобы получить все это. И если вы хотите обрабатывать как громкий, так и тихий звук, то вам нужно быть на хорошем уровне до уровня -100 дБ. Который тест на прослушивание одного тона вряд ли когда-либо увидит, в основном потому, что такие частоты «считаются» только тогда, когда они входят в фазу с другими гармониками как часть резкого переходного звука - их энергия в этом случае складывается вместе, достигая достаточной концентрации вызвать нейронный отклик, даже если отдельные частотные компоненты в отдельности могут быть слишком малы для подсчета.
Другая проблема заключается в том, что мы постоянно подвергаемся бомбардировке многими источниками ультразвукового шума, вероятно, большей частью из-за сломанных нейронов в наших собственных внутренних ушах, поврежденных чрезмерным уровнем звука в какой-то предшествующий момент в нашей жизни. Было бы трудно различить изолированный выходной тон теста прослушивания по такому громкому «локальному» шуму!
Поэтому для этого требуется, чтобы «прозрачная» конструкция системы использовала гораздо более высокую частоту нижних частот, чтобы у системы было пространство для затухания нижних частот (со своей собственной фазовой модуляцией, к которой ваш мозг уже «откалиброван») перед системой фазовая модуляция начинает изменять форму переходных процессов и перемещать их во времени так, чтобы мозг больше не мог распознать, к какому звуку они принадлежат.
С наушниками гораздо проще просто сконструировать их так, чтобы они имели единый широкополосный драйвер с достаточной пропускной способностью и полагались на очень высокую частоту собственных частот «нескорректированного» драйвера для предотвращения временных искажений. Это намного лучше работает с наушниками, так как небольшая масса водителя хорошо подходит для этого условия.
Причина необходимости фазовой линейности глубоко укоренена в дуальности частотной области во временной области, а также является причиной того, что вы не можете создать фильтр с нулевой задержкой, который может «идеально исправить» любую реальную физическую систему.
Причина в том, что важна «линейность фаз», а не «плоскостность фаз», потому что общий наклон фазовой кривой не имеет значения - по дуальности любой наклон фазы просто эквивалентен постоянной временной задержке.
Внешнее ухо каждого человека имеет различную форму и, следовательно, другую передаточную функцию, возникающую на немного разных частотах. Ваш мозг привык к тому, что он имеет, со своими собственными отчетливыми резонансами. Если вы используете неправильный, на самом деле он будет звучать только хуже, так как исправления, которые использует ваш мозг, больше не будут соответствовать исправлениям в передаточной функции наушников, и у вас будет что-то хуже, чем отсутствие подавления резонанса - у вас будет вдвое больше несбалансированных полюсов / нулей, которые загромождают вашу фазовую задержку, и полностью искажают ваши групповые задержки и время прибытия компонентов.
Это будет звучать очень неясно, и вы не сможете разобрать пространственное изображение, закодированное в записи.
Если вы проводите слепое тестирование на прослушивание A / B, каждый выберет неисправленные наушники, которые, по крайней мере, не влияют на задержку группы так сильно, чтобы их мозг мог перенастроить себя на них.
И именно поэтому активные наушники не пытаются выровнять. Это слишком сложно, чтобы получить право.
Именно поэтому цифровая коррекция помещений является нишей, в которой она находится: потому что ее правильное использование требует частых измерений, которые трудно / невозможно провести вживую и о которых потребители обычно не хотят знать.
Главным образом потому, что акустические резонансы в исправляемой комнате, которые в основном являются частью низкочастотного отклика, продолжают слегка изменяться, когда давление воздуха, температура и влажность все меняются, таким образом слегка изменяя скорость звука, тем самым изменяя резонансы по сравнению с тем, что они были, когда измерение было сделано.