Краткая версия вопроса: я ищу программное обеспечение для распознавания речи, которое работает на Linux и имеет приличную точность и удобство использования. Любая лицензия и цена в порядке. Он не должен ограничиваться голосовыми командами, так как я хочу иметь возможность диктовать текст.
Больше деталей:
Я неудовлетворительно пробовал следующее:
- CMU Sphinx
- CVoiceControl
- Уши
- Юлий
- Kaldi (например, сервер Kaldi GStreamer )
- IBM ViaVoice (раньше работал на Linux, но был прекращен несколько лет назад)
- NICO ANN Инструментарий
- OpenMindSpeech
- RWTH ASR
- окрик
- Silvius (построен на инструментах распознавания речи Kaldi )
- Саймон слушает
- ViaVoice / Xvoice
- Вино + Dragon NaturallySpeaking + NatLink + Стрекоза + стрекоза
- https://github.com/DragonComputer/Dragonfire : принимает только голосовые команды
Все вышеупомянутые нативные Linux-решения имеют как низкую точность, так и удобство использования (или некоторые из них не допускают диктовки в виде свободного текста, а только голосовые команды). Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал ниже для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и, к сожалению, я не единственный, у кого такие проблемы.
В Microsoft Windows я использую Dragon NaturallySpeaking, в Apple Mac OS XI использую Apple Dictation и DragonDictate, в Android я использую распознавание речи Google, а в iOS я использую встроенное распознавание речи Apple.
Baidu Research выпустила вчера в код для его библиотеки распознавания речи с использованием Коннекшионистского Temporal Классификации реализована с факелом. Тесты от Gigaom обнадеживают, как показано на скриншоте ниже, но я не знаю ни одной хорошей обертки, чтобы сделать ее пригодной для использования без некоторого кодирования (и большого набора обучающих данных):
Существует несколько альфа-проектов с открытым исходным кодом:
- https://github.com/mozilla/DeepSpeech (часть проекта Mozilla's Vaani: http://vaani.io ( зеркало ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, система для управления системой Linux с использованием Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (будет выпущен Google, упоминается на Interspeech 2018)
Мне также известна эта попытка отслеживания состояния искусства и недавние результаты (библиография) по распознаванию речи. а также этот эталон существующих API распознавания речи .
Мне известно об Aenea , который позволяет распознавать речь через Dragonfly на одном компьютере для отправки событий на другой, но у него есть некоторая задержка:
Мне также известны эти два доклада, посвященные изучению возможностей Linux для распознавания речи: