В некоторых местах я читал, что музыка в основном сэмплируется на частоте 44,1 кГц, тогда как мы слышим только до 20 кГц. Почему это?
В некоторых местах я читал, что музыка в основном сэмплируется на частоте 44,1 кГц, тогда как мы слышим только до 20 кГц. Почему это?
Ответы:
Обратите внимание, что обоснование публикуется во многих местах: Википедия: Почему 44,1 кГц?
Sony выбрала 44 100, потому что это произведение квадратов первых четырех простых чисел. Это делает его делимым на множество других целых чисел , что является полезным свойством в цифровой выборке.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Как вы заметили, 44100 также чуть выше предела человеческого слуха в два раза. Чуть выше часть дает фильтры некоторую свободу действий, поэтому делает их менее дорогими (меньше фишек отвергается).
Как указывает Рассел в комментариях, момент деления на множество других целых чисел имел непосредственную выгоду во время выбора частоты дискретизации. Раннее цифровое аудио записывалось на существующие аналоговые носители записи видео, которые в зависимости от региона поддерживали видео спецификации NTSC или PAL . NTSC и PAL имели разные скорости линий на поле и полей в секунду, LCM которых (вместе с образцами на строку) составляет 44100 .
Скорость Найквиста в два раза превышает предел полосы пропускания сигнала основной полосы, который вы хотите захватить без неоднозначности (например, сглаживание).
Сэмплируйте с меньшей частотой, чем в два раза по 20 кГц, и вы не сможете отличить очень высокие и очень низкие частоты, просто взглянув на сэмплы из-за наложения.
Добавлено: Обратите внимание, что любой сигнал конечной длины имеет бесконечную поддержку в частотной области, поэтому не является строго ограниченным диапазоном. Это еще одна причина, по которой выборка любого неограниченного аудиоисточника, немного превышающего в два раза спектр наивысшей частоты (в сигнале основной полосы частот), требуется для того, чтобы избежать значительного наложения (помимо просто причин конечного спада фильтра).
По сути, двойная полоса пропускания является общим требованием для дискретизации сигнала, поэтому минимум кГц является минимальным. Тогда немного больше полезно, чтобы справиться с несовершенной фильтрацией и квантованием . Подробности следуют.
То, что вам нужно в теории, не то, что требуется на практике. Это идет по цитате (приписывается многим):
В теории нет разницы между теорией и практикой. На практике есть.
Я не являюсь экспертом в области аудио, но меня обучали высококачественные специалисты по сэмплированию / сжатию звука. Мои знания могут быть ржавыми, примите это с осторожностью.
Во-первых, стандартная теория выборки работает при некоторых допущениях: линейные системы и временная инвариантность. Кроме того, теоретически известно, что непрерывное явление с ограниченной полосой частот может быть дискретизировано с удвоенной шириной полосы (или вдвое больше максимальной частоты для сигналов основной полосы частот) без потерь. «Уровень Найквиста» часто определяется как:
минимальная скорость, с которой сигнал может быть выбран без ошибок
Это аналитическая часть «теоремы выборки». «Может быть» важно. Есть часть синтеза: непрерывный сигнал « может быть восстановлен» аналогично с использованием кардинальных синусов. Это не единственный метод, и он не учитывает предварительную фильтрацию нижних частот, нелинейный (такой как квантование, насыщение) и другие изменяющиеся во времени факторы.
Человеческий слух - не простая тема. Принято считать, что люди слышат частоты от 20 до 20000 Гц. Но такие точные границы в герцах не являются чертой природы для всех людей. Постепенная потеря чувствительности к более высоким частотам часто с возрастом. На другой стороне:
В идеальных лабораторных условиях люди могут слышать звук с частотой до 12 Гц и с частотой до 28 кГц, хотя у взрослых этот порог резко возрастает при 15 кГц
Слух не является линейным: существуют пороги прослушивания и страдания . Это не зависит от времени. Существуют маскирующие эффекты как по времени, так и по частоте.
Если диапазон от 20 Гц до 20000 Гц является обычным диапазоном, а теоретически должно хватить 40000 Гц, то для преодоления дополнительных искажений потребуется немного больше. Практическое правило гласит, что на 10% больше в порядке (в пропускной способности сигнала), а 44,100 Гц - просто так. Это восходит к концу 1970-х годов. Почему не используется 44 000 Гц? Главным образом из-за стандартов, установленных популярностью компакт-дисков, чьи технологии, как всегда, основаны на компромиссе. Кроме того, 44 100 - это произведение квадратов первых четырех простых чисел ( ), следовательно, имеет небольшие факторы, полезные для вычислений (например, FFT).2 2 × 3 2 × 5 2 × 7 2
Таким образом, от до (и кратных), мы имеем баланс в безопасности, квантовании, удобстве использования, вычислениях и стандартах.44,1
Существуют и другие варианты: например, был выпущен формат DAT с дискретизацией 48 кГц с изначально трудным преобразованием. 96 кГц обсуждается в отношении квантования (или глубины в битах). Какую частоту дискретизации и глубину в битах следует использовать? Это спорный вопрос, см. 24-битные 48 кГц стихи 24-битные 96 кГц . Вы можете проверить частоты дискретизации Audacity, например.
Почему именно 44,1 кГц уже было дано ответом - но, чтобы сосредоточиться на аспекте вашего вопроса, связанном с пределом человеческого восприятия, причина довольно проста.
Разрешающая способность во времени должна быть достаточно высокой, чтобы можно было генерировать все возможные формы волны до предела, который является ощутимым. Согласно теореме выборки , разрешение должно быть таким, чтобы частота дискретизации была, по крайней мере, вдвое больше этой частоты. Интуитивно понятно, что на самой высокой частоте вам нужно как минимум 2 точки для представления максимума и минимума вашего сигнала, что дает прямоугольную волну Ascii-art:
_ _
|_| |_
Чтобы точно воспроизвести сигнал, чем выше частота дискретизации, тем лучше. Было выбрано ~ 40 кГц, потому что это была низкая частота дискретизации, для которой большинство людей не может определить разницу (при реконструкции). Когда была введена аудиосэмплирование, память и хранилище были дорогими, а более высокая частота дискретизации не была дешевой.
При удвоении верхнего предела человеческого слуха две выборки за цикл очень плохая реконструкция, даже если она соответствует критериям Найквиста для выборки сигналов, простая диаграмма, изображающая синусоидальную волну с двумя выборками за цикл, покажет вам, насколько плохие две выборки за цикл в воспроизведении формы волны. Вы можете буквально превратить синусоидальную волну в прямоугольную; это хорошо при 20 кГц, никто не может сказать. Бьюсь об заклад, собака может, хотя.