Распознавание речи - MP3 в текстовое программное обеспечение [закрыто]


16

Я ищу программу, независимую от динамиков (коммерческую или бесплатную), которая позволила бы мне транскрибировать файлы MP3, содержащие записи речи (особенно подкасты), в текст. Я хотел попробовать Dragon Naturally Speaking, но похоже, что он поддерживает только запись моих собственных речевых записей. Так каковы альтернативы?


Комментарий Ави: Я не верю, что это возможно - независимый оратор
Иво Флипс

какая операционная система?
studiohack

Windows или Linux.
Пако

Ответы:


7

Dragon Naturally Speaking импортирует mp3-файлы и пытается их расшифровать. Он предпочитает настраивать распознавание голоса на отдельного динамика, но справляется с этим без настройки. Вероятно, будет лучше, если ваши колонки подкастов будут звучать как Tom Brokaw


2
Я попробовал Dragon Naturally Speaking, но он сделал ужасную работу для подкастов с неизвестными ораторами. Это работало довольно хорошо с моим собственным голосом после обучения программе.
Пако

1
Может ли он также импортировать другие аудиофайлы и транскрибировать их?
Ларри Моррис

4

Одним из возможных решений было бы загрузить свое видео на Youtube и попробовать автоматические подписи, которые вы можете включить ... это еще не слишком точно, но вы можете загрузить файл подписей и отредактировать его самостоятельно, если это поможет ... как по вопросам авторского права / пиратства для песни, вы можете сделать видео приватным в своем профиле, если это вообще возможно?


1
@studioback: Этот метод на Youtube применяется только к собственным видео, а не к тем, которые были загружены другими?
Тим

1
@Tim: это для обоих, на самом деле.
studiohack

1
@studiohack: Как сделать это для видео, загруженных другими? Я имею в виду, без загрузки и загрузки как мои собственные видео?
Тим

1
На большинстве видео есть значок CC внизу, щелкните его, а затем
произойдет


2

Я бы рекомендовал не пытаться использовать Dragon Naturally Speaking - я написал несколько скриптов на своем джейлбрейкнутом iphone, чтобы скопировать / преобразовать все файлы голосовой почты с моего телефона в папку на моем компьютере, и для них была запущена служба транскрипции Dragon Naturally Speaking.

Результат запуска транскрипции для файлов с разными динамиками был абсолютно непригодным. Я пробовал некоторые альтернативы с открытым исходным кодом, но независимое от говорящего распознавание голоса все еще кажется ограниченным очень маленькими словарями.


1

Я использую http://www.voicebase.com с подкастом и видео на английском, и это работает очень хорошо. Это бесплатно в течение 50 часов аудио.

Вы можете скачать аудио транскрипцию на RTF, SRT или PDF.

Вы можете скачать машинную транскрипцию через 10-15 минут после загрузки, а иногда и рано.


1

Открытый исходный код: CMU Sphinx

Условно-бесплатная: http://www.e-speaking.com/ (Windows)

Рекламный ролик: Dragon NaturallySpeaking (Windows)

Вы также можете попробовать этот метод, если вы пытались с OSX, что можно сделать с помощью Audacity и Soundflower

Вы также можете найти некоторые соответствующие ссылки для opensource, который стоит попробовать еще в одном условно-бесплатном ПО - voxcribecc.

Если вы программист .net, вы можете использовать этот метод, чтобы сделать свой собственный комплект


0

Podzinger был бы отличным решением, но я не уверен, что ramp (новое название для компании, которая раньше была EveryZing, которая производила Podzinger), предлагает услугу бесплатно ...

http://en.wikipedia.org/wiki/Podzinger

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.