Если люди могут слышать только частоту звука до 20 кГц, почему музыкальный звук дискретизируется на частоте 44,1 кГц?


60

В некоторых местах я читал, что музыка в основном сэмплируется на частоте 44,1 кГц, тогда как мы слышим только до 20 кГц. Почему это?


1
Молодые люди могут слышать более высокие частоты. Другие методы записи используют до 48 кГц.
Турбьерн Равн Андерсен

15
Теорема Найквиста: вам нужно два сэмпла на каждый свинг, чтобы определить частоту волны.
mathreadler

Поскольку процессоры быстрее, память дешева, но хорошие аналоговые фильтры все еще хитры, даже более высокая частота дискретизации может иметь смысл (96 или 192 кГц)
Ник Т

2
@ ThorbjørnRavnAndersen Я думаю, что частота 48 кГц является обычной, потому что она делится на 24, 25 и 30 кадров в секунду, используемых при производстве видео. 24 не входит в число 44100. Это то, что упоминает Википедия.
Ник Т

4
@ SohamDe Это потому, что если вы сэмплируете аудиосигнал 20 кГц с частотой точно 20 кГц, вы ничего не услышите . Изобразите это, синусоида, которая достигает максимума каждые 1/20 000 секунд. Что ж, если вы сэмплируете это с точно такой же скоростью, то вы бы сэмплировали только пики (или узлы, или любой другой уровень, на котором вы их взяли). Поэтому, когда вы воссоздаете сигнал с цифрового, все, что вы получаете, это плоская линия. Эта концепция называется псевдонимами, и она делает так, что вы должны как минимум вдвое превышать максимальную частоту, которую хотите слышать. 44 100 Гц удобно, потому что делится на степень 2.
MichaelK

Ответы:


89
  1. Частота дискретизации реального сигнала должна быть больше, чем удвоенная ширина полосы сигнала. Звук практически начинается с частоты 0 Гц, поэтому самая высокая частота звука, записанного на частоте 44,1 кГц, составляет 22,05 кГц (ширина полосы 22,05 кГц).
  2. Идеальные фильтры для кирпичной стены математически невозможны, поэтому мы не можем просто идеально обрезать частоты выше 20 кГц. Дополнительные 2 кГц предназначены для спада фильтров; это «комната для маневра», в которой звук может иметь псевдоним из-за несовершенных фильтров, но мы не можем его услышать.
  3. Конкретное значение 44,1 кГц было совместимо с частотой кадров видео PAL и NTSC, использовавшейся в то время.

Обратите внимание, что обоснование публикуется во многих местах: Википедия: Почему 44,1 кГц?


9
Привет, я действительно согласен с вашим ответом, но «дважды высокая скорость» очень скоро укусит новичков, потому что Nyquist - это пропускная способность, а не самая высокая частота; Я пошел дальше и немного изменил ваш ответ. Пожалуйста, проверьте, все ли в порядке с вами.
Маркус Мюллер

2
@Ruslan: Википедия довольно хороша в этом.
jojek

2
@BrianDrummond Так отредактируйте это?
эндолиты

3
@ MarcusMüller, начинающий, укушенный «Найквистом - самая высокая разрешенная частота», все равно будет укушен за счет наложения артефактов ... После этого они также поймут, как любой диапазон частот полосы пропускания демодулируется до единицы между и . 0 Δ F = F s / 2Δf0Δf=fs/2
оставил около

1
Возможно, не удастся определить разницу между звуком 19 999,9 Гц с десятью гармониками или звуком 20 000,1 Гц с девятью, если их слышать по отдельности, но это не означает, что переход между ними не будет слышен. Наличие фильтра с более постепенным отсечением позволит избежать таких проблем.
суперкат

72

Sony выбрала 44 100, потому что это произведение квадратов первых четырех простых чисел. Это делает его делимым на множество других целых чисел , что является полезным свойством в цифровой выборке.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Как вы заметили, 44100 также чуть выше предела человеческого слуха в два раза. Чуть выше часть дает фильтры некоторую свободу действий, поэтому делает их менее дорогими (меньше фишек отвергается).

Как указывает Рассел в комментариях, момент деления на множество других целых чисел имел непосредственную выгоду во время выбора частоты дискретизации. Раннее цифровое аудио записывалось на существующие аналоговые носители записи видео, которые в зависимости от региона поддерживали видео спецификации NTSC или PAL . NTSC и PAL имели разные скорости линий на поле и полей в секунду, LCM которых (вместе с образцами на строку) составляет 44100 .


12
Выбор заключался не просто в получении множества основных факторов, а в том, чтобы в полной мере использовать оборудование для видеозаписи NTSC и PAL для хранения цифровых мастеров. ru.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Рассел

3
@RussellBorogove: Спасибо. Согласно Wiki-ссылке, 44100 - это LCM частот дискретизации частот функций видео NTSC и PAL . Это довольно прямое следствие того, что число со многими факторами, и я верю, что вы правы, что лошадь привела телегу по этой спецификации.
Dotancohen

1
Делится на многие числа, но не на 8 :)
Богдан Александру

(Википедия говорит разнообразие скоростей от 40,5 до 46,8 кГц отвечал бы этим критериям, и 44,1 кГц был выбран , чтобы обеспечить переход полосы для antiliasing фильтра)
эндолиты

2
@BogdanAlexandru также не делится на 1 мс USB кадров: D
эндолиты

13

Скорость Найквиста в два раза превышает предел полосы пропускания сигнала основной полосы, который вы хотите захватить без неоднозначности (например, сглаживание).

Сэмплируйте с меньшей частотой, чем в два раза по 20 кГц, и вы не сможете отличить очень высокие и очень низкие частоты, просто взглянув на сэмплы из-за наложения.

Добавлено: Обратите внимание, что любой сигнал конечной длины имеет бесконечную поддержку в частотной области, поэтому не является строго ограниченным диапазоном. Это еще одна причина, по которой выборка любого неограниченного аудиоисточника, немного превышающего в два раза спектр наивысшей частоты (в сигнале основной полосы частот), требуется для того, чтобы избежать значительного наложения (помимо просто причин конечного спада фильтра).


Привет, я действительно согласен с вашим ответом, но «дважды высокая скорость» очень скоро укусит новичков, потому что Nyquist - это пропускная способность, а не самая высокая частота; Я пошел дальше и немного изменил ваш ответ. Пожалуйста, проверьте, все ли в порядке с вами.
Маркус Мюллер

6
@ MarcusMüller, поскольку «новички» в выборке начинаются с выборки сигналов основной полосы частот, а не сигналов в полосе пропускания, на самом деле речь идет о самой высокой частоте (иногда называемой «ограничением полосы частот»), а не о ширине полосы (которая имеет дополнительную неоднозначность в отношении односторонних или двусторонних сигналов). пропускная способность).
Роберт Бристоу-Джонсон

@ robertbristow-johnson не смотрел на эту двусмысленность. Hm; Мне нравится бэндлимитный подход!
Маркус Мюллер

3
в статье в Википедии мы называем это « » и, хотя Шеннон сказал, что достаточно, он предполагал конечную энергию, поэтому нет синусоид (которые имеют бесконечную энергию и могут также помещать дельты Дирака в ) если вы допустите синусоиду прямо на частоте , то это более часто . f s2 B ± B B f s > 2 BBfs2B±BBfs>2B
Роберт Бристоу-Джонсон

10

По сути, двойная полоса пропускания является общим требованием для дискретизации сигнала, поэтому минимум кГц является минимальным. Тогда немного больше полезно, чтобы справиться с несовершенной фильтрацией и квантованием . Подробности следуют.2×20=40

То, что вам нужно в теории, не то, что требуется на практике. Это идет по цитате (приписывается многим):

В теории нет разницы между теорией и практикой. На практике есть.

Я не являюсь экспертом в области аудио, но меня обучали высококачественные специалисты по сэмплированию / сжатию звука. Мои знания могут быть ржавыми, примите это с осторожностью.

Во-первых, стандартная теория выборки работает при некоторых допущениях: линейные системы и временная инвариантность. Кроме того, теоретически известно, что непрерывное явление с ограниченной полосой частот может быть дискретизировано с удвоенной шириной полосы (или вдвое больше максимальной частоты для сигналов основной полосы частот) без потерь. «Уровень Найквиста» часто определяется как:

минимальная скорость, с которой сигнал может быть выбран без ошибок

Это аналитическая часть «теоремы выборки». «Может быть» важно. Есть часть синтеза: непрерывный сигнал « может быть восстановлен» аналогично с использованием кардинальных синусов. Это не единственный метод, и он не учитывает предварительную фильтрацию нижних частот, нелинейный (такой как квантование, насыщение) и другие изменяющиеся во времени факторы.

Человеческий слух - не простая тема. Принято считать, что люди слышат частоты от 20 до 20000 Гц. Но такие точные границы в герцах не являются чертой природы для всех людей. Постепенная потеря чувствительности к более высоким частотам часто с возрастом. На другой стороне:

В идеальных лабораторных условиях люди могут слышать звук с частотой до 12 Гц и с частотой до 28 кГц, хотя у взрослых этот порог резко возрастает при 15 кГц

Слух не является линейным: существуют пороги прослушивания и страдания . Это не зависит от времени. Существуют маскирующие эффекты как по времени, так и по частоте.

Если диапазон от 20 Гц до 20000 Гц является обычным диапазоном, а теоретически должно хватить 40000 Гц, то для преодоления дополнительных искажений потребуется немного больше. Практическое правило гласит, что на 10% больше в порядке (в пропускной способности сигнала), а 44,100 Гц - просто так. Это восходит к концу 1970-х годов. Почему не используется 44 000 Гц? Главным образом из-за стандартов, установленных популярностью компакт-дисков, чьи технологии, как всегда, основаны на компромиссе. Кроме того, 44 100 - это произведение квадратов первых четырех простых чисел ( ), следовательно, имеет небольшие факторы, полезные для вычислений (например, FFT).2 2 × 3 2 × 5 2 × 7 22.2×22×32×52×72

Таким образом, от до (и кратных), мы имеем баланс в безопасности, квантовании, удобстве использования, вычислениях и стандартах.44,12×2044.1

Существуют и другие варианты: например, был выпущен формат DAT с дискретизацией 48 кГц с изначально трудным преобразованием. 96 кГц обсуждается в отношении квантования (или глубины в битах). Какую частоту дискретизации и глубину в битах следует использовать? Это спорный вопрос, см. 24-битные 48 кГц стихи 24-битные 96 кГц . Вы можете проверить частоты дискретизации Audacity, например.


2
1. Ответ на вопрос заключается в том, что теорема Найквиста диктует> 40 кГц, а не> 20 кГц. 2. Ни человеческий слух, ни формат CD не ограничены частотой 20 Гц на низких частотах. Любой достаточно большой трубный орган может воспроизводить звук 16 Гц, а компакт-диск может легко его воспроизвести. Некоторые органы опускаются до 8 Гц, что начинает восприниматься как индивидуальные вибрации, но которые снова могут воспроизводиться CD.
user207421

Я согласен с вашим комментарием, за исключением «диктует» (это условие «если»). Не могли бы вы указать, где я отклонился от этого?
Лоран Дюваль

1
У меня есть только одно дополнение к ответу @LaurentDuval. Речь, музыка и звук в целом являются нестационарными сигналами. Хотя они эффективно ограничены полосой частот, но мы еще не знаем, как человеческое ухо передает непрерывный сигнал времени нервным выстрелам, которые облегчают наше восприятие звука. Часто утверждают, что у некоторых людей есть «золотые уши», и они могут различить записи 44,1 кГц против 96 кГц. Кроме того, мне еще предстоит подтвердить следующее: кажется, более высокие частоты дискретизации способствуют восприятию дополнительных сигналов, таких как локализация в бинауральных записях.
Neeks

0

Почему именно 44,1 кГц уже было дано ответом - но, чтобы сосредоточиться на аспекте вашего вопроса, связанном с пределом человеческого восприятия, причина довольно проста.

Разрешающая способность во времени должна быть достаточно высокой, чтобы можно было генерировать все возможные формы волны до предела, который является ощутимым. Согласно теореме выборки , разрешение должно быть таким, чтобы частота дискретизации была, по крайней мере, вдвое больше этой частоты. Интуитивно понятно, что на самой высокой частоте вам нужно как минимум 2 точки для представления максимума и минимума вашего сигнала, что дает прямоугольную волну Ascii-art:

_   _
 |_| |_

-1

Чтобы точно воспроизвести сигнал, чем выше частота дискретизации, тем лучше. Было выбрано ~ 40 кГц, потому что это была низкая частота дискретизации, для которой большинство людей не может определить разницу (при реконструкции). Когда была введена аудиосэмплирование, память и хранилище были дорогими, а более высокая частота дискретизации не была дешевой.

При удвоении верхнего предела человеческого слуха две выборки за цикл очень плохая реконструкция, даже если она соответствует критериям Найквиста для выборки сигналов, простая диаграмма, изображающая синусоидальную волну с двумя выборками за цикл, покажет вам, насколько плохие две выборки за цикл в воспроизведении формы волны. Вы можете буквально превратить синусоидальную волну в прямоугольную; это хорошо при 20 кГц, никто не может сказать. Бьюсь об заклад, собака может, хотя.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.