Почему большинство умных помощников предлагают мало, если таковые имеются, настройки слова пробуждения?


14

Большинство брендов умных помощников , таких как Amazon Echo и Google Home, предлагают очень мало способов настройки для слова «пробуждение» (фраза, которую вы используете, чтобы разбудить устройство, чтобы оно вас слушало).

Например, Alexa предлагает только три варианта, а Google Home поддерживает только «OK Google» . Многим пользователям, кажется, интересна идея нестандартных пробужденных слов, но ни один из крупных брендов не добавил поддержку.

Есть ли какая-либо техническая причина для ограничения настройки слова «вейк» или это просто выбор бренда?

Я читал о мотивации Google использовать «ОК Google» , которая предполагает, что идея брендинга может быть верной, но также кажется, что распознавание слова не очень точное , возможно, указывает на техническую причину. Кто-нибудь сможет уточнить, какой фактор является основной причиной?


2
Следует помнить, что подобная обработка должна выполняться в очень низком энергопотреблении и всегда в активном домене - для некоторых из этих задач часто имеется специальное оборудование, особенно в тех, которые используются в телефонах), и я предполагаю, что коэффициенты фильтра / другие параметры тщательно рассчитываются и загружаются в это оборудование. Я забыл, на каком SoC Echo работает, но я думаю, что есть похожий фильтр. Название класса алгоритмов ускользает от меня на данный момент
Крунал Десаи

Ответы:


12

Да, есть несколько причин.

Это сообщение в блоге объясняет это о Echo и о бодрствующем слове Alexa. Я подведу немного.

Распознавание слова Wake производится локально и в режиме реального времени . Это ограничивает длину слова пробуждения из-за очевидных ограничений обработки. Кроме того, пользователи не хотят читать стихотворение, чтобы активировать умного помощника. Таким образом, оно должно быть коротким.

Он должен работать с почти 100% точностью при вызове и также не распознается с такой уверенностью, когда не требуется . Это создает проблемы, а также делает минимальную длину для бодрствующих слов. Выбор Amazon разрешить Echo довольно удивителен, так как это всего два слога .

Если мы посмотрим на обычных подозреваемых, у нас есть Alexa (3 слога), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) и Hey Siri (3). Все отраслевые гиганты почти согласны с тем, что три слога являются хорошим выбором.

Как ни странно, самое желаемое слово «компьютер» также имеет три слога и легко соответствует этому требованию. Это также не является торговой маркой.

Как говорится в блоге - и причина - мы полностью хотим избежать ложных срабатываний. Давайте посмотрим, как установлены слова Computer, Siri, Cortana и Alexa. Это корпус книги Google с 2008 года.

Компьютер Ngram затмевает Алексу и Сири

Точно, Сири и Алекса фактически противостоят компьютеру, и Кортана дает ошибку. Не найден. Имеет смысл, так как корпус с 2008 года. Чтобы дать нам более точную точку зрения, почему компьютер является ужасным следом слова другого графика.

нграмма компьютера против других слов

На этой Ngram показаны два самых популярных в США имени ребенка в 2016 году (для валюты), а также Том и Дейв также противостоят компьютеру . Королева, баскетболистка и полиция успевают правильно зарегистрироваться. В любом случае, это дает нам представление о том, почему компьютер, Эрл Грей, Hot не был разрешен до сих пор. Люди используют слово компьютер слишком часто.

Еще одна вещь о ложных срабатываниях. Алекса рифмуется практически без слов.

19 вещей, которые рифмуются с алексой

Компьютер рифмуется с 74 вещами.


1

2
"Я собираюсь заняться сексом с птицей ... Нет, не ты, Алекса!"
Дэвид говорит восстановить Монику

1
«OK Google» - это четыре слога («О, Кей, Гу-чайка»), а не три, и намного больше, чем столько фонем.
Монти Хардер

1
Alexa - чертовски имя ... Я лично знаю 2 человек с таким именем, один из которых двоюродный брат. Эхо используется как есть в моем языке, и я часто говорю «есть эхо», когда есть эхо на телефоне или что-то в этом роде. А Амазонка - это название реки / старого племени, которое парень в ролевых играх, как я, говорит относительно часто. Они действительно испортили это.
Оливье Грегуар

2
Я не уверен, что куплю это объяснение того, почему слово «компьютер» не будет работать. Само слово не единственное, что можно узнать. Будучи первым словом высказывания и сопровождаемым паузой, также являются важными частями информации, которые идентифицируют командное слово.
Кевин Крумвиде

2

Есть ли техническая причина для ограничения настройки слова?

Когда вспомогательное устройство не используется, процессор приложения (я думаю, что ARM в случае Alexa, а также Google Home) приостанавливается и переводится в состояние минимальной мощности. Обнаружение пробужденного слова оставлено на очень энергоэффективный DSP, который прослушивает окружающий шум / голоса и запускает алгоритм, чтобы решить, есть ли совпадение с пробуждающим словом. Если он находит совпадение с достаточной степенью уверенности, DSP пробуждает ядро ​​ARM, чтобы начать работу с остальной частью обработки.

Теперь, поскольку цель состоит в том, чтобы быть энергоэффективной, рассматриваемый DSP запускает алгоритм, а также сохраняет шаблон шаблона в оперативной памяти, а не в основной встроенной оперативной памяти. Это позволяет системе даже переводить оперативную память DDR в режим низкого энергопотребления

Поскольку в DSP есть несколько ключевых вещей и очень мало встроенной памяти, слова пробуждения помощника ограничены несколькими самыми выбираемыми, которые могут быть сопоставлены алгоритмом с высокой степенью достоверности.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.