Есть ли приличное программное обеспечение для распознавания речи для Linux?

50

Краткая версия вопроса: я ищу программное обеспечение для распознавания речи, которое работает на Linux и имеет приличную точность и удобство использования. Любая лицензия и цена в порядке. Он не должен ограничиваться голосовыми командами, так как я хочу иметь возможность диктовать текст.

Больше деталей:

Я неудовлетворительно пробовал следующее:

CMU Sphinx
CVoiceControl
Уши
Юлий
Kaldi (например, сервер Kaldi GStreamer )
IBM ViaVoice (раньше работал на Linux, но был прекращен несколько лет назад)
NICO ANN Инструментарий
OpenMindSpeech
RWTH ASR
окрик
Silvius (построен на инструментах распознавания речи Kaldi )
Саймон слушает
ViaVoice / Xvoice
Вино + Dragon NaturallySpeaking + NatLink + Стрекоза + стрекоза
https://github.com/DragonComputer/Dragonfire : принимает только голосовые команды

Все вышеупомянутые нативные Linux-решения имеют как низкую точность, так и удобство использования (или некоторые из них не допускают диктовки в виде свободного текста, а только голосовые команды). Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал ниже для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и, к сожалению, я не единственный, у кого такие проблемы.

В Microsoft Windows я использую Dragon NaturallySpeaking, в Apple Mac OS XI использую Apple Dictation и DragonDictate, в Android я использую распознавание речи Google, а в iOS я использую встроенное распознавание речи Apple.

Baidu Research выпустила вчера в код для его библиотеки распознавания речи с использованием Коннекшионистского Temporal Классификации реализована с факелом. Тесты от Gigaom обнадеживают, как показано на скриншоте ниже, но я не знаю ни одной хорошей обертки, чтобы сделать ее пригодной для использования без некоторого кодирования (и большого набора обучающих данных):

Существует несколько альфа-проектов с открытым исходным кодом:

https://github.com/mozilla/DeepSpeech (часть проекта Mozilla's Vaani: http://vaani.io ( зеркало ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, система для управления системой Linux с использованием Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (будет выпущен Google, упоминается на Interspeech 2018)

Мне также известна эта попытка отслеживания состояния искусства и недавние результаты (библиография) по распознаванию речи. а также этот эталон существующих API распознавания речи .

Мне известно об Aenea , который позволяет распознавать речь через Dragonfly на одном компьютере для отправки событий на другой, но у него есть некоторая задержка:

Мне также известны эти два доклада, посвященные изучению возможностей Linux для распознавания речи:

2016 - Одиннадцатая НАДЕЖДА: кодирование голосом с распознаванием речи с открытым исходным кодом (Дэвид Уильямс-Кинг)
2014 - Pycon: использование Python для кодирования голосом (Тавис Радд)

software-rec speech-recognition

— Франк Дернонкур
источник

2

Некоторые подробности о том, что вы нашли "неудовлетворительным", могут продвинуть вашу в целом интересную, но довольно общую тему публикации. Например: что конкретно вас не устраивает в комбинации «Wine + Dragon NaturallySpeaking»? (как не удалось воспроизвести ваш опыт работы с Windows?)

— Theophrastus

1

@Theophrastus В основном все нативные Linux-решения имеют низкую точность и удобство использования. Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и я, к сожалению, не единственный, у кого такие проблемы, к сожалению ( appdb.winehq.org/… )

— Franck Dernoncourt

1

Я не пробовал это, но в случае, если кто-то найдет это полезным: github.com/Uberi/speech_recognition и jasperproject.github.io и github.com/benoitfragit/google2ubuntu

— Хатшепсут

Есть ли одна из этих программ, которая имеет инструмент командной строки? Было бы очень интересно совместить распознавание речи с инструментом нажатия клавиш и движением мыши, таким как xdotool ( github.com/jordansissel/xdotool ) или xsendkey ( github.com/kyoto/sendkeys ).

— Baptx

13

Прямо сейчас я экспериментирую с использованием KDE Connect в сочетании с распознаванием речи Google на моем смартфоне Android.

KDE connect позволяет использовать ваше устройство Android в качестве устройства ввода для вашего компьютера с Linux (есть и другие функции). Вам нужно установить приложение KDE connect из магазина Google Play на своем смартфоне / планшете и установить на вашем компьютере Linux и kdeconnect, и индикатор-kdeconnect. Для систем Ubuntu установка происходит следующим образом:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Недостатком этой установки является то, что она устанавливает кучу пакетов KDE, которые вам не нужны, если вы не используете среду рабочего стола KDE.

После того, как вы подключите свое устройство Android к компьютеру (они должны быть в одной сети), вы можете использовать клавиатуру Android, а затем щелкнуть / нажать на микрофоне, чтобы использовать распознавание речи Google. Во время разговора текст начнет появляться там, где на вашем компьютере с Linux активен курсор.

Что касается результатов, они немного смешаны для меня, так как в настоящее время я пишу некоторый технический астрофизический документ, а распознавание речи в Google борется с жаргоном, который вы обычно не читаете. Также забудьте об этом, выясняя пунктуацию или правильную прописную букву.

— shockburner
источник

4

На данный момент в Linux работает только ноутбук Voice .

— Алексей
источник

2

Спасибо, это работает только в браузере Chrome.

— Франк Дернонкур

3

Как еще один Linuxer, ищущий полезную программу преобразования речи в текст, я посмотрел на speechpad.pw:

он очень хорошо распознает мой родной язык
работает быстро и очень надежно

Недостатки:

конечно это проприетарное и закрытое ПО от Google
служба Google будет прослушивать, обрабатывать и хранить каждое слово, которое вы говорите
аудио и текст будут обработаны и, очевидно, сохранены Google
speechpad.pw требует ежемесячной / ежеквартальной / годовой абонентской платы
speechpad.pw работает только как дополнение к браузеру Google Chrome - никакой другой браузер

Итак, speechpad.pw является очень проприетарным и закрытым исходным кодом, а также связан с Google, который мы все знаем как бессонные метаданные, сборщик личной информации и личного контента.

Эти недостатки делают его неприемлемым для меня, хотя само распознавание речи работает очень хорошо - намного лучше, чем все остальное, что я видел до сих пор.

— слишком
источник

Спасибо, да, существенные недостатки, тем более, что он работает только в браузере Chrome.

— Франк Дернонкур

1

Вы можете использовать Документы Google в Chrome и использовать их «Инструменты» »« Голосование набирает ... ». Возможно, точно такая же программа для распознавания речи, но она бесплатная. Затем скопируйте и вставьте результаты из своего документа туда, где вам нужен текст.

— Алексис Вилке

2

Приложение Chrome "VoiceNote II" ( http://voicenote.in/ ) прекрасно работает на моем компьютере Xubuntu 16.04. Обучение голосу не требуется, и настройка была простой. Один поиск, чтобы найти его, один щелчок, чтобы установить, один щелчок, чтобы создать ярлык и привязать его к рабочему столу.

— Indy Tech Fix
источник

Спасибо, работает только в Google Chrome

— Franck Dernoncourt

0

Я бы предложил использовать дракона на вашем телефоне или планшете, а затем отправить текст по электронной почте. Это сопротивление, но это работает и очень точно. Если вы настаиваете на использовании Linux для этого, получение второго дисплея значительно упростит копирование и прохождение.

Я не пробовал этого, но вы можете использовать или адаптировать программу Python Bluetooth Chat с помощью dragon на своем планшете / телефоне. Также могут быть приложения удаленной клавиатуры для мобильных устройств, которые могут поддерживать диктовку.

Я буду экспериментировать и попытаюсь ответить вам чем-то более определенным.

— user273470
источник

0

Я использую приложение KD Connect. это работает довольно эффективно! Я могу следить за монитором, разговаривая с телефоном на столе. Единственным недостатком является то, что это делается с помощью клавиатуры Google. он не является ни бесплатным, ни родным, ни открытым исходным кодом. Этот комментарий был опубликован без каких-либо исправлений

— Джош Левин
источник

-2

Вы можете использовать речь к тексту в приложении Linux. Это приложение использует Google Speech Api и модуль двоичной интеграции для 32- или 64-разрядной версии Linux. Вы можете увидеть краткую презентацию использования инструментов speechpad.pw в Ubuntu

— Павел Попов
источник

1

ОП ищет движок для преобразования текста в текст. Это всего лишь оболочка веб-интерфейса (и притом плохая) вокруг движка STT.

— Cerin