Чем шумоподавление для распознавания речи отличается от шумоподавления, которое должно сделать речь более «понятной» для людей?

это вопрос, который меня интересовал в течение некоторого времени, главным образом потому, что я сам работаю над подавлением шума для существующей системы распознавания речи.

Кажется, что в большинстве работ по технике шумоподавления основное внимание уделяется тому, как сделать речь более понятной для людей или как улучшить нечеткие термины, такие как «качество речи».

Я уверен, что с помощью таких критериев вы можете определить фильтры, которые делают шумовые речевые сигналы более легкими для восприятия людьми. Тем не менее, я не уверен, что эти критерии могут быть просто адаптированы при попытке оценить речевые сигналы, которые были удалены для улучшения точности системы распознавания речи.

Я действительно не нахожу документы, которые обсуждают эту разницу. Различают ли речь и ее качество с точностью систем распознавания речи? Существуют ли объективные меры, которые могут оценить, насколько «хорошим» будет сигнал с шумом от речи для системы распознавания речи, например, если также дать исходную чистую речь? Или это единственный способ узнать, насколько хороша ваша техника шумоподавления, обучить систему распознавания речи на обесцвеченных данных и посмотреть на точность?

Я был бы счастлив, если бы кто-то мог указать мне правильное направление или, возможно, дать какие-то документы, которые обсуждают это. Заранее спасибо!

— marlonfl
источник

Я действительно не нахожу документы, которые обсуждают эту разницу.

Есть целые книги на эту тему:

Надежное автоматическое распознавание речи, 1-е издание

Различают ли речь и ее качество с точностью систем распознавания речи?

Обычно нет, обычно шумоподавление портит функции непредсказуемым образом и снижает точность распознавания речи.

Существуют ли объективные меры, которые могут оценить, насколько «хорошим» будет сигнал с шумом от речи для системы распознавания речи, например, если также дать исходную чистую речь? Или это единственный способ узнать, насколько хороша ваша техника шумоподавления, обучить систему распознавания речи на обесцвеченных данных и посмотреть на точность?

Во-вторых. Более того, функция шумоподавления фактически полностью удаляет важную информацию из спектра, поэтому вы не можете восстановить точность чистой системы. По этой причине современный подход состоит в том, чтобы выполнять многостильное обучение на зашумленных данных вместо того, чтобы заранее использовать алгоритм шумоподавления. Это заканчивается более точным распознаванием.

— Николай Шмырев
источник

Спасибо за ваши ответы. Я думаю, я не искал нужные бумаги. Я посмотрю на эту книгу.

— marlonfl

Хорошо, если вы хотите документы, вы можете проверить результаты испытаний CHIME-4, в основном это современный уровень надежности ASR.

— Николай Шмырев