Причина, по которой вы видите, что преобразование Фурье применяется два раза в процессе извлечения объектов, заключается в том, что функции основаны на концепции, называемой кепстр. Кепстр представляет собой игру в слове «спектр». По сути, идея состоит в том, чтобы преобразовать сигнал в частотную область с помощью преобразования Фурье, а затем выполнить другое преобразование, как если бы частотный спектр был сигналом.
В то время как частотный спектр описывает амплитуду и фазу каждой полосы частот, кепстр характеризует изменения между полосами частот. Обнаружено, что признаки, полученные из кепстра, лучше описывают речь, чем признаки, взятые непосредственно из частотного спектра.
Есть несколько немного разных определений. Первоначально преобразование кепстра было определено как преобразование Фурье -> комплексный логарифм -> преобразование Фурье [1]. Другое определение - преобразование Фурье -> комплексный логарифм -> обратное преобразование Фурье [2]. Мотивация последнего определения заключается в его способности разделять свернутые сигналы (человеческая речь часто моделируется как свертка возбуждения и голосового тракта).
Популярный выбор, который, как было установлено, хорошо работает в системах распознавания речи, состоит в том, чтобы применять банк нелинейных фильтров в частотной области (преобразование mel, на которое вы ссылаетесь) [3]. Конкретный алгоритм определяется как преобразование Фурье -> квадрат величины -> банк фильтров Мел -> реальный логарифм -> дискретное косинусное преобразование.
Здесь DCT может быть выбран в качестве второго преобразования, потому что для вещественного ввода действительная часть DFT является разновидностью DCT. Причина, по которой DCT является предпочтительным, заключается в том, что выходной сигнал приблизительно декоррелирован. Декоррелированные элементы могут быть эффективно смоделированы как гауссово распределение с диагональной ковариационной матрицей.
[1] Богерт Б., Хили М. и Тьюки Дж. (1963). Четверичный аланиз по временным рядам для эхо-сигналов: кепстр, псевдо-автоковариация, кросс-кепстр и крекинг по Сафе. В материалах симпозиума по анализу временных рядов, с. 209-243.
[2] Оппенгейм А. и Шафер Р. (1968). Гомоморфный анализ речи. В IEEE Труды по аудио и электроакустике 16, p. 221-226.
[3] Дэвис С. и Мермельштейн П. (1980). Сравнение параметрических представлений для односложного распознавания слов в высказываемых предложениях. В транзакциях IEEE по акустике, обработке речи и сигналов 28, p. 357-366.