В поисках ответа на эту проблему я обнаружил, что эта доска объявлений решила опубликовать мой вопрос в переполнении стека.
Я ищу способ определения сходства между аудиосегментом и человеческим голосом, который выражается численно.
Я немного искал, но то, что я нашел до сих пор (подробно описано ниже), не совсем соответствует тому, что мне нужно:
Одним из способов является использование программного обеспечения для распознавания речи для получения слов из аудиосегмента. Однако этот метод не может придумать, насколько «похож» звук на человеческую речь; он часто может сказать, есть ли слова в аудио, но если нет определенных слов, он не может сказать, близко ли аудио к наличию таких слов.
Примеры: CMU Sphinx , Dragonfly , SHOUTБолее многообещающий метод называется распознаванием голосовой активности (VAD). Тем не менее, это имеет тенденцию иметь те же проблемы: алгоритмы / программы, использующие VAD, имеют тенденцию просто возвращать, был ли достигнут порог активности или нет значения «сходства» до или после такого порога. В качестве альтернативы, многие просто ищут объем, а не сходство с человеческой речью.
Примеры: Speex , Listener , FreeSWITCH
Есть идеи?