простое распознавание речи под linux


15

У кого-нибудь есть простое руководство по запуску распознавания речи в Linux? Я вижу, что pocketsphinx доступен в виде бинарной загрузки в центре программного обеспечения, но при запуске его из терминала не получается сообщить о том, что ему нужны параметры, но я не знаю, что туда поместить. Я попытался установить все перечисленные голосовые модели, но я не знаю, где они сохранены или как заставить их работать. Я также не был уверен, что делать, чтобы Sphinx3 работал. Страницы Sphinx3 кажутся сломанными, а у карманного сфинкса нет примера использования, который имеет смысл для меня.

Я ищу что-то, что получит 60% правильное распознавание по микрофонному вводу с ограниченным словарным запасом и словами, а затем может записать это в текстовый файл - этот материал существовал в конце 1980-х годов. Итак, я знаю, что он существует и должен как-то работать.

Благодарю.

(PS Интернет-соединение не идет)


У меня были проблемы с запуском simon-listens.org на Ubuntu в прошлый раз, но это было довольно давно, возможно, стоит
попробовать

1
Возможно, вы захотите указать, нормально ли требуется активное подключение к Интернету. Голосовая служба Google принимает аудиофайл и возвращает текст, но не поддерживает автономный режим.
RobotHumans

Активный интернет не идет.
user2068060

1
Лучший способ добавить дополнительную информацию к вашему вопросу - отредактировать ее с помощью кнопки редактирования . Это лучше видно таким образом, и комментарии в основном для вторичных, временных целей. Комментарии удаляются при различных обстоятельствах. Все, что важно для вашего вопроса, должно быть в самом вопросе.
Гюнтберт

Ответы:


4

Попробуйте Саймон Слушает

Simon - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатуру. Он разработан, чтобы быть очень гибким и позволяет настраивать любые приложения, где требуется распознавание речи.

Для загрузки и получения дополнительной информации посетите сайт simon на kde.org.



0

Уровень точности зависит от множества факторов, таких как акцент, фоновые шумы, качество записи. Предварительно обученные модели немного ограничены, и в моих проектах транскрипции вместо Transcriear использовался инструмент преобразования речи в текст на основе веб-браузера.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.