Я не думаю, что есть какой-то смысл углубляться в сложность DFT / FFT / IIR / FIR и вейвлетов без предварительного понимания того, что такое звук в сущности и каковы различные способы представления звука в цифровом виде.
Что такое аудио в целом (в воздухе, а не в воде или других материалах):
- Аудио состоит из волн звукового давления
- Они вызывают сжатие и разрежение воздуха
- Эти волны распространяются наружу от точки источника
- Волны могут мешать друг другу, вызывая пики и впадины
- Волны могут быть поглощены и отражены материалами
Как аудио представлено электрически:
- Микрофон и предварительный усилитель преобразуют волны звукового давления в электрический сигнал
- Обычно этот сигнал имеет положительное и отрицательное напряжение (например, напряжение переменного тока).
- Магнитные ленты хранят эти различия по мере их появления, отсюда и термин аналог
- Насыщение происходит, когда сила входного сигнала равна пределам системы (дальнейшее увеличение напряжения не может быть точно представлено)
- Ограничение происходит, когда входной сигнал выше, чем может быть представлен системой, поэтому сигнал становится ограниченным (или ограниченным в конечностях)
Как аудио представлено в цифровом виде:
- Звук должен быть сначала дискретизирован с использованием АЦП (аналого-цифровой преобразователь)
- Выборка состоит из периодического электрического измерения аудиосигнала
- Этот период называется частотой дискретизации, и он определяет самую высокую частоту, которая может быть представлена (предел Найквиста)
- Предел Найквиста - это частота дискретизации / 2 (чем ближе к пределу, тем хуже представлен сигнал)
- Битовый диапазон определяет минимальный уровень шума, (-96 дБ для 16 бит против -48 дБ для 8 бит)
- Одна 16-битная выборка аудио может иметь значение (со знаком) от -32768 до 32767 (это может представлять как отрицательный, так и положительный размах аналогового сигнала).
- На каждый байт допускается только 8 бит (с точки зрения хранения на компьютере), поэтому 16-битная выборка должна быть представлена как минимум 2 байтами
- Порядок, в котором хранятся эти байты, называется их типом байтов (большим или маленьким)
- Для стерео сэмплов требуется отдельный сэмпл для каждого канала, один для левого, а другой для правого
Какие разные способы используются для хранения цифрового аудио:
- PCM (импульсная кодовая модуляция) - наиболее распространенный несжатый способ хранения звука в цифровой форме.
- Существует много способов сжатия данных, чтобы уменьшить объем используемых данных, некоторые без потерь, некоторые с потерями
- Файлы WAV являются несжатыми и могут быть моно или стерео (чередующиеся сэмплы)
- MP3-файлы сжимаются, с потерями и используют психоакустику для достижения очень высокой степени сжатия данных
- Даже самый низкий битовый диапазон (1 бит) может быть полезен в зависимости от их использования, как правило, подарочные карты, которые воспроизводят аудио, которое хранится как 1 бит
Как лучше познакомиться со звуком в цифровой сфере:
- Делай и делай больше! Загрузите программу, такую как Audacity, и создайте разные аудиофайлы, используя разные частоты дискретизации и битовые диапазоны.
- Создайте синусоидальные / треугольные / квадратные и пилообразные тоны и узнайте разницу
- Научитесь слышать разницу между типами, такими как 8-битный файл 10 кГц и 16-битный файл 44,1 кГц (качество CD)
- Поэкспериментируйте с высокочастотными / низкочастотными / полосовыми фильтрами и узнайте разницу
- Push-сигналы за пределами своего предела насыщения, чтобы понять, как отсечение влияет на аудиосигнал
- Примените конверты к сигналам, если ваша программа имеет такую возможность
- Существует разница между негармоническим и гармоническим искажением, эксперимент с обоими
- Используйте спектрограмму (БПФ), чтобы увидеть эти и другие сигналы, чтобы ознакомиться с ними
- Используйте линейные и логарифмические графики, чтобы увидеть различия
- Уменьшите и увеличьте сигналы и узнайте, как это влияет на звук
- Используйте разные методы дизеринга (при преобразовании битовых диапазонов) и узнайте разницу
Надеемся, что это даст вам представление о том, что представляет собой цифровой звук и как звучат различия до того, как вы попробуете любой DSP. Всегда легче узнать, что что-то не так с вашим FFT-анализом, если вы можете распознать, что, например, вы вводили 8-битный сигнал против 16-битного или что частота выборки была искажена из-за неправильного просчета в преобразовании.