Почему мы выбираем 44,1 кГц в качестве частоты дискретизации записи?

21

Народные уши слышат звук, частота которого колеблется от 20 Гц до 20 кГц. Исходя из теоремы Найквиста, скорость записи должна быть не менее 40 кГц. Это причина выбора 44,1 кГц?

audio sampling

— new_comer_forever
источник

4

Он был выбран для совместимости с частотой кадров видео. См. En.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F

— эндолит

Частоты выше около 12-15k добавляют мало или вообще ничего не значат. Большинству людей старше 40 лет будет мало полезного. Слышимость выше этого уровня.

— Крис Хит

32

Это правда, что, как и любое соглашение, выбор 44,1 кГц является своего рода исторической случайностью. Есть несколько других исторических причин.

Конечно, частота дискретизации должна превышать 40 кГц, если вы хотите высококачественный звук с полосой пропускания 20 кГц.

Обсуждалось, как сделать 48,0 кГц (это было хорошо согласовано с 24 кадрами в секунду фильмов и якобы 30 кадрами в секунду на североамериканском телевидении), но, учитывая физический размер 120 мм, было ограничение на количество данных CD может удерживаться, и, учитывая, что необходима схема обнаружения и исправления ошибок, которая требует некоторой избыточности данных, объем логических данных, которые CD может хранить (около 700 МБ), составляет около половины объема физических данных. Учитывая все это, на частоте 48 кГц, нам сказали, что он не может вместить все 9-е Бетховена, но что он может удерживать весь 9-й на одном диске с немного более медленной скоростью. Так что 48 кГц нет.

Тем не менее, почему 44,1, а не 44,0 или 45,0 кГц или какое-то хорошее круглое число?

Тогда в конце 1970-х годов существовал продукт под названием Sony F1 , предназначенный для записи цифрового звука на легкодоступную видеокассету (Betamax, а не VHS). Это было при 44,1 кГц (или, точнее, 44,056 кГц). Так что это позволит легко переносить записи без передискретизации и интерполяции с F1 на CD или в другом направлении.

Мое понимание того, как это получается, заключается в том, что частота горизонтального сканирования ТВ NTSC составляла 15,750 кГц, а 44,1 кГц ровно в 2,8 раза больше. Я не совсем уверен, но я считаю, что это означает, что вы можете иметь три пары стерео сэмплов на горизонтальную линию, и на каждые 5 строк, где у вас обычно было бы 15 сэмплов, есть 14 сэмплов плюс один дополнительный сэмпл для некоторых проверка на четность или избыточность в F1. 14 выборок для 5 строк - это то же самое, что 2,8 выборки на горизонтальную линию и 15 750 строк в секунду, что составляет 44 100 выборок в секунду.

Теперь, с появлением цветного телевизора, им пришлось немного снизить скорость горизонтальной линии до 15734 строк в секунду. Эта корректировка приводит к 44 056 выборкам в секунду в Sony F1.

— Роберт Бристоу-Джонсон
источник

8

Смотрите, например, http://www1.cs.columbia.edu/~hgs/audio/44.1.html . Вы должны использовать частоту дискретизации более 40 кГц из-за фильтров сглаживания. Вы должны иметь некоторый запас по частоте, чтобы предотвратить искажение сигнала из-за наклона фильтра. Фактическое значение 44,1 кГц было предложено корпорацией Sony, когда в 1979 году обсуждался стандарт звукозаписи. Они широко использовали эту частоту в тот момент.

Так что это вообще историческая причина.

— Serj
источник

6

При переходе на цифровые форматы аудио сохранялось в форме псевдо-видео, которая могла быть видна как черная или белая (представляющая двоичный формат).

Частота и структура поля, используемые телевизионным стандартом, следующие для видео 60 Гц: 245 строк на поле (исключая первые 35 пропущенных строк). С тремя выборками на линию, что составляет 60 x 245 x 3 = 44100 = 44,1 кГц.

Это соглашение позже использовалось для формата CD из-за проблем совместимости оборудования (самое первое оборудование, используемое для изготовления мастеров CD, используемых для репликации CD, было основано на видео).

Источник: Искусство воспроизведения звука, с. 228

— mhbuur
источник

если это то, что делает F1, я должен сказать: «Я исправлен». я предположил, что F1 использовал пустые строки.

— Роберт Бристоу-Джонсон

Привет, я только что прочитал здесь, что "цветовая кодировка NTSC используется с телевизионным сигналом System M, который состоит из 30 / 1,001 (приблизительно 29,97) чересстрочных кадров видео в секунду. Каждый кадр состоит из двух полей, каждое из которых состоит из 262,5 строк сканирования, в общей сложности 525 строк сканирования. 483 строки сканирования составляют видимый растр. Остальная часть (интервал вертикального гашения) обеспечивает вертикальную синхронизацию и обратный ход ». так что даже 490 строк используют некоторые из (оригинальных NTSC) пустых строк.

— Роберт Бристоу-Джонсон

0

Кажется, что предел слышимости для людей может быть намного выше, чем 20 кГц, если смотреть с точки зрения «динамического» временного разрешения, а не типичных статических синусоидальных волн. Также интересные комментарии о запасе между 20 кГц и 22 кГц для реконструкции фильтра. На самом деле Питер Крэйвен получил довольно интересную работу по оптимизации фильтрации во временной области, которая требует как минимум 96 кГц для воспроизведения hi-fi.

Pawel

— Pawel
источник

ну, есть способ узнать. это называется слепым тестированием AB . не нужно быть двойным слепым (но обычно это так). и тестирование AB лучше, чем тестирование ABX, по моему мнению.

— Роберт Бристоу-Джонсон

0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Теорема выборки Найквиста-Шеннона гласит, что частота дискретизации должна быть больше, чем в два раза больше максимальной частоты, которую желательно воспроизвести. Поскольку диапазон человеческого слуха составляет примерно от 20 Гц до 20000 Гц, частота дискретизации должна была быть выше 40 кГц.

Кроме того, сигналы должны быть отфильтрованы нижними частотами перед выборкой, чтобы избежать наложения. Хотя идеальный фильтр нижних частот будет идеально пропускать частоты ниже 20 кГц (без их ослабления) и идеально обрезать частоты выше 20 кГц, такой идеальный фильтр теоретически невозможен (он не является причинно-следственным), поэтому на практике необходим переходный диапазон, где частоты частично ослаблены. Чем шире эта полоса перехода, тем проще и экономичнее создать фильтр сглаживания. Частота дискретизации 44,1 кГц обеспечивает переходную полосу 2,05 кГц.

Кроме того, 44 100 является произведением квадратов первых четырех простых чисел (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) и, следовательно, имеет много полезных небольших факторов.

— чжун
источник

так что если мы изменим наше единичное время со второго на «фарг» , что составляет 1,001 секунды, то что это будет делать с 44100 и его многими полезными небольшими факторами?

— Роберт Бристоу-Джонсон

-2

Посмотрите [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone для описания. .Теорема, называемая теоремой выборки Найквиста, гласит, что для выборки сигнала с частотой X Гц без существенной потери качества необходимо выполнить выборку с частотой 2X. Предел человеческого слуха составляет приблизительно 20 кГц, что требует частоты дискретизации около 40 кГц. Вот почему диски сэмплированы на частоте 44 кГц. т.е. каждая секунда записи на компакт-диске содержит 44 000 измерений максимально возможной частоты, содержащейся в записи.

— ааш ма
источник

Ну, не совсем из-за этого ...

— jojek

Это частично из-за этого. человек редко слышит выше 20 кГц, поэтому диапазон аудиофилов достаточно немного выше 40 кГц, то есть 42, 43, 44. если вы взрываете кого-то с огромными синусоидальными волнами на 22 кГц, шанс услышать может только ребенок. летучие мыши работают на 115 кГц, а некоторые дельфины на частоте 150 кГц, за исключением того, что это в воде, что звучит яснее. Проверьте свое высокочастотное восприятие онлайн с записями ... то есть здесь audiocheck.net/audiotests_frequencycheckhigh.php

— com.prehensible