План обучения для начинающих по обработке звукового сигнала

13

Я хотел бы начать изучать обработку аудиосигнала. В Интернете есть множество книг и научных статей, которые, кажется, пропускают основы темы.

Я хотел бы знать, так сказать, приблизительный план действий, чтобы успешно освоить обработку аудиосигнала.

Я прочитал, что исчисление является первым шагом перед началом анализа сигналов.

Мне кажется, что анализ аудиосигнала - это только одна часть необходимых знаний. Где другие темы - теория музыки, звуковая инженерия и программирование.

Могу ли я попросить людей со знаниями в этой области предложить возможные шаги к пониманию того, как анализировать и манипулировать / создавать аудиосигналы.

audio

— jarryd
источник

Я бы согласился с тем, что фон в исчислении (как минимум) будет важен для вас, чтобы иметь возможность понять математику, с которой вы можете столкнуться в тексте или курсе теории сигналов и теории систем. Я бы удостоверился, что ты собираешься потушить там первым.

— Джейсон Р

1

Эти слайды могут помочь. Они получают некоторые хотя бы нематематические / инженерные основы обработки аудио и аудио программирования. blog.bjornroche.com/2011/11/…

— Бьорн Роше

17

Я рекомендую взглянуть на « Физическую обработку звукового сигнала» профессора Джулиуса О. Смита III . Он доступен в Интернете или может быть приобретен через сервис печати по требованию Amazon.

В частности, описание в обзоре серии книг может быть полезным.

введите описание изображения здесь

— Питер К.
источник

9

Я не думаю, что есть какой-то смысл углубляться в сложность DFT / FFT / IIR / FIR и вейвлетов без предварительного понимания того, что такое звук в сущности и каковы различные способы представления звука в цифровом виде.

Что такое аудио в целом (в воздухе, а не в воде или других материалах):

Аудио состоит из волн звукового давления
Они вызывают сжатие и разрежение воздуха
Эти волны распространяются наружу от точки источника
Волны могут мешать друг другу, вызывая пики и впадины
Волны могут быть поглощены и отражены материалами

Как аудио представлено электрически:

Микрофон и предварительный усилитель преобразуют волны звукового давления в электрический сигнал
Обычно этот сигнал имеет положительное и отрицательное напряжение (например, напряжение переменного тока).
Магнитные ленты хранят эти различия по мере их появления, отсюда и термин аналог
Насыщение происходит, когда сила входного сигнала равна пределам системы (дальнейшее увеличение напряжения не может быть точно представлено)
Ограничение происходит, когда входной сигнал выше, чем может быть представлен системой, поэтому сигнал становится ограниченным (или ограниченным в конечностях)

Как аудио представлено в цифровом виде:

Звук должен быть сначала дискретизирован с использованием АЦП (аналого-цифровой преобразователь)
Выборка состоит из периодического электрического измерения аудиосигнала
Этот период называется частотой дискретизации, и он определяет самую высокую частоту, которая может быть представлена (предел Найквиста)
Предел Найквиста - это частота дискретизации / 2 (чем ближе к пределу, тем хуже представлен сигнал)
Битовый диапазон определяет минимальный уровень шума, (-96 дБ для 16 бит против -48 дБ для 8 бит)
Одна 16-битная выборка аудио может иметь значение (со знаком) от -32768 до 32767 (это может представлять как отрицательный, так и положительный размах аналогового сигнала).
На каждый байт допускается только 8 бит (с точки зрения хранения на компьютере), поэтому 16-битная выборка должна быть представлена как минимум 2 байтами
Порядок, в котором хранятся эти байты, называется их типом байтов (большим или маленьким)
Для стерео сэмплов требуется отдельный сэмпл для каждого канала, один для левого, а другой для правого

Какие разные способы используются для хранения цифрового аудио:

PCM (импульсная кодовая модуляция) - наиболее распространенный несжатый способ хранения звука в цифровой форме.
Существует много способов сжатия данных, чтобы уменьшить объем используемых данных, некоторые без потерь, некоторые с потерями
Файлы WAV являются несжатыми и могут быть моно или стерео (чередующиеся сэмплы)
MP3-файлы сжимаются, с потерями и используют психоакустику для достижения очень высокой степени сжатия данных
Даже самый низкий битовый диапазон (1 бит) может быть полезен в зависимости от их использования, как правило, подарочные карты, которые воспроизводят аудио, которое хранится как 1 бит

Как лучше познакомиться со звуком в цифровой сфере:

Делай и делай больше! Загрузите программу, такую как Audacity, и создайте разные аудиофайлы, используя разные частоты дискретизации и битовые диапазоны.
Создайте синусоидальные / треугольные / квадратные и пилообразные тоны и узнайте разницу
Научитесь слышать разницу между типами, такими как 8-битный файл 10 кГц и 16-битный файл 44,1 кГц (качество CD)
Поэкспериментируйте с высокочастотными / низкочастотными / полосовыми фильтрами и узнайте разницу
Push-сигналы за пределами своего предела насыщения, чтобы понять, как отсечение влияет на аудиосигнал
Примените конверты к сигналам, если ваша программа имеет такую возможность
Существует разница между негармоническим и гармоническим искажением, эксперимент с обоими
Используйте спектрограмму (БПФ), чтобы увидеть эти и другие сигналы, чтобы ознакомиться с ними
Используйте линейные и логарифмические графики, чтобы увидеть различия
Уменьшите и увеличьте сигналы и узнайте, как это влияет на звук
Используйте разные методы дизеринга (при преобразовании битовых диапазонов) и узнайте разницу

Надеемся, что это даст вам представление о том, что представляет собой цифровой звук и как звучат различия до того, как вы попробуете любой DSP. Всегда легче узнать, что что-то не так с вашим FFT-анализом, если вы можете распознать, что, например, вы вводили 8-битный сигнал против 16-битного или что частота выборки была искажена из-за неправильного просчета в преобразовании.

— ronnied
источник

Спасибо за ответ. Я знаю об этих вещах, хотя и хотел бы сейчас перейти на сторону кодирования dsp.

— Джаррид