Есть ли приличное программное обеспечение для распознавания речи для Linux?


50

Краткая версия вопроса: я ищу программное обеспечение для распознавания речи, которое работает на Linux и имеет приличную точность и удобство использования. Любая лицензия и цена в порядке. Он не должен ограничиваться голосовыми командами, так как я хочу иметь возможность диктовать текст.


Больше деталей:

Я неудовлетворительно пробовал следующее:

Все вышеупомянутые нативные Linux-решения имеют как низкую точность, так и удобство использования (или некоторые из них не допускают диктовки в виде свободного текста, а только голосовые команды). Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал ниже для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и, к сожалению, я не единственный, у кого такие проблемы.

В Microsoft Windows я использую Dragon NaturallySpeaking, в Apple Mac OS XI использую Apple Dictation и DragonDictate, в Android я использую распознавание речи Google, а в iOS я использую встроенное распознавание речи Apple.

Baidu Research выпустила вчера в код для его библиотеки распознавания речи с использованием Коннекшионистского Temporal Классификации реализована с факелом. Тесты от Gigaom обнадеживают, как показано на скриншоте ниже, но я не знаю ни одной хорошей обертки, чтобы сделать ее пригодной для использования без некоторого кодирования (и большого набора обучающих данных):

введите описание изображения здесь

Существует несколько альфа-проектов с открытым исходным кодом:

Мне также известна эта попытка отслеживания состояния искусства и недавние результаты (библиография) по распознаванию речи. а также этот эталон существующих API распознавания речи .


Мне известно об Aenea , который позволяет распознавать речь через Dragonfly на одном компьютере для отправки событий на другой, но у него есть некоторая задержка:

введите описание изображения здесь

Мне также известны эти два доклада, посвященные изучению возможностей Linux для распознавания речи:


2
Некоторые подробности о том, что вы нашли "неудовлетворительным", могут продвинуть вашу в целом интересную, но довольно общую тему публикации. Например: что конкретно вас не устраивает в комбинации «Wine + Dragon NaturallySpeaking»? (как не удалось воспроизвести ваш опыт работы с Windows?)
Theophrastus

1
@Theophrastus В основном все нативные Linux-решения имеют низкую точность и удобство использования. Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и я, к сожалению, не единственный, у кого такие проблемы, к сожалению ( appdb.winehq.org/… )
Franck Dernoncourt

1
Я не пробовал это, но в случае, если кто-то найдет это полезным: github.com/Uberi/speech_recognition и jasperproject.github.io и github.com/benoitfragit/google2ubuntu
Хатшепсут

Есть ли одна из этих программ, которая имеет инструмент командной строки? Было бы очень интересно совместить распознавание речи с инструментом нажатия клавиш и движением мыши, таким как xdotool ( github.com/jordansissel/xdotool ) или xsendkey ( github.com/kyoto/sendkeys ).
Baptx

Ответы:


13

Прямо сейчас я экспериментирую с использованием KDE Connect в сочетании с распознаванием речи Google на моем смартфоне Android.

KDE connect позволяет использовать ваше устройство Android в качестве устройства ввода для вашего компьютера с Linux (есть и другие функции). Вам нужно установить приложение KDE connect из магазина Google Play на своем смартфоне / планшете и установить на вашем компьютере Linux и kdeconnect, и индикатор-kdeconnect. Для систем Ubuntu установка происходит следующим образом:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Недостатком этой установки является то, что она устанавливает кучу пакетов KDE, которые вам не нужны, если вы не используете среду рабочего стола KDE.

После того, как вы подключите свое устройство Android к компьютеру (они должны быть в одной сети), вы можете использовать клавиатуру Android, а затем щелкнуть / нажать на микрофоне, чтобы использовать распознавание речи Google. Во время разговора текст начнет появляться там, где на вашем компьютере с Linux активен курсор.

Что касается результатов, они немного смешаны для меня, так как в настоящее время я пишу некоторый технический астрофизический документ, а распознавание речи в Google борется с жаргоном, который вы обычно не читаете. Также забудьте об этом, выясняя пунктуацию или правильную прописную букву.

введите описание изображения здесь

введите описание изображения здесь



3

Как еще один Linuxer, ищущий полезную программу преобразования речи в текст, я посмотрел на speechpad.pw:

  • он очень хорошо распознает мой родной язык
  • работает быстро и очень надежно

Недостатки:

  • конечно это проприетарное и закрытое ПО от Google
  • служба Google будет прослушивать, обрабатывать и хранить каждое слово, которое вы говорите
  • аудио и текст будут обработаны и, очевидно, сохранены Google
  • speechpad.pw требует ежемесячной / ежеквартальной / годовой абонентской платы
  • speechpad.pw работает только как дополнение к браузеру Google Chrome - никакой другой браузер

Итак, speechpad.pw является очень проприетарным и закрытым исходным кодом, а также связан с Google, который мы все знаем как бессонные метаданные, сборщик личной информации и личного контента.

Эти недостатки делают его неприемлемым для меня, хотя само распознавание речи работает очень хорошо - намного лучше, чем все остальное, что я видел до сих пор.


Спасибо, да, существенные недостатки, тем более, что он работает только в браузере Chrome.
Франк Дернонкур

1
Вы можете использовать Документы Google в Chrome и использовать их «Инструменты» »« Голосование набирает ... ». Возможно, точно такая же программа для распознавания речи, но она бесплатная. Затем скопируйте и вставьте результаты из своего документа туда, где вам нужен текст.
Алексис Вилке

2

Приложение Chrome "VoiceNote II" ( http://voicenote.in/ ) прекрасно работает на моем компьютере Xubuntu 16.04. Обучение голосу не требуется, и настройка была простой. Один поиск, чтобы найти его, один щелчок, чтобы установить, один щелчок, чтобы создать ярлык и привязать его к рабочему столу.


Спасибо, работает только в Google Chrome
Franck Dernoncourt

0

Я бы предложил использовать дракона на вашем телефоне или планшете, а затем отправить текст по электронной почте. Это сопротивление, но это работает и очень точно. Если вы настаиваете на использовании Linux для этого, получение второго дисплея значительно упростит копирование и прохождение.

Я не пробовал этого, но вы можете использовать или адаптировать программу Python Bluetooth Chat с помощью dragon на своем планшете / телефоне. Также могут быть приложения удаленной клавиатуры для мобильных устройств, которые могут поддерживать диктовку.

Я буду экспериментировать и попытаюсь ответить вам чем-то более определенным.


0

Я использую приложение KD Connect. это работает довольно эффективно! Я могу следить за монитором, разговаривая с телефоном на столе. Единственным недостатком является то, что это делается с помощью клавиатуры Google. он не является ни бесплатным, ни родным, ни открытым исходным кодом. Этот комментарий был опубликован без каких-либо исправлений


-2

Вы можете использовать речь к тексту в приложении Linux. Это приложение использует Google Speech Api и модуль двоичной интеграции для 32- или 64-разрядной версии Linux. Вы можете увидеть краткую презентацию использования инструментов speechpad.pw в Ubuntu


1
ОП ищет движок для преобразования текста в текст. Это всего лишь оболочка веб-интерфейса (и притом плохая) вокруг движка STT.
Cerin
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.