Ученые создали экспериментальное устройство, которое позволяет цифровым помощникам, таким как Alexa, Google Assistant или Siri, управлять по вызову без необходимости слышать голос человека.
Это специальное устройство также предназначено для людей, у которых есть проблемы с созданием звука. Тем не менее, они должны иметь возможность использовать цифровых помощников в разговорной речи. Соответствующее экспериментальное устройство было разработано доцентом Ченгом Чжаном и аспирантом Жуйдун Чжаном из Корнельского университета. Об этом сообщила Cornell Chronicle.
"У этого устройства есть потенциал для изучения речевых моделей человека, даже когда он говорит тихо", - сказал Чжан. Оно называется Speechin и использует подход, аналогичный подходу Neckface. Neckface был представлен Ченгом Чжаном и его членами команды научно-фантастической лаборатории в 2021 году. Он постоянно отслеживает всю мимику лица, используя инфракрасные камеры для съемки изображения подбородка и лица из-под шеи.
Speechin также использует ИК-камеру, созданную с помощью 3D-принтера. Вся конструкция висит в корпусе на цепочке на шее и носится перед грудью. При этом камера снимает подбородок соответствующего человека снизу. Эти видеозаписи предназначены для распознавания слов устройством, даже если они произносятся беззвучно. Слова, распознанные Speechin, затем передаются соответствующему цифровому помощнику.
В первоначальных экспериментах с участием 20 участников были проведены измерения, чтобы определить исходное положение подбородка. Затем устройство было обучено распознавать простые команды на основе разностных изображений. Из участников десять говорили по-английски и десять по-китайски на мандаринском.
Чжан заставил людей произнести 54 команды на английском языке, состоящие из цифр, интерактивных команд, команд голосового помощника, команд пунктуации и команд навигации. Затем он сделал то же самое с 44 простыми словами или предложениями на мандаринском языке. Speechin распознавал команды на английском и мандаринском языках со средней точностью 90,5 процента и 91,6 процента соответственно.
Наконец, исследователи набрали шесть участников, которые должны были произнести 10 фраз на мандаринском и 10 на английском языках в движении. Показатель успеха был ниже в этом исследовании. Это объясняется тем, что каждый человек движется по-разному во время разговора.
Источник: Медиастанция