网易用研:超全面的语音交互知识科普

网易用研:超全面的语音交互知识科普,第1张

网易用研:超全面的语音交互知识科普

为什么会有语音交互?适用于什么场景?不适合做什么?文章将为你解读。

1.什么是语音交互?

在机器出现之前,人类最早的交互方式是口水战。现在,随着自然交互的趋势,我们又回到了文字的交互局面。

原始的交互方式是人与人之间用语言、动作、眼神进行交互,人与物之间用动作进行交互。机械刚出现的时候,人机交互的概念出现了,机械容易 *** 作,需要人去学习,去适应战争。Shos的“QWERTY”键盘会普及,因为字母的排列可以减缓打字速度,防止快速输入相互干扰形成关键环节。

两次战争期间的讨论促进了人类果实计划的发展,发展了符合人类和进步人士服从的机械概念。在计算机领域,从CLI进入GUI,再到现在的一个支流 *** 控方式——触控,用脚趾在屏幕上滑动按压,这是一个很大的突破。语音用户界面(VUI),脚部姿势、动作、情绪交互,甚至脑机交互都属于自然用户界面(NUI)。

从运营商的角度来看,语音交互是基于笔记本电脑或计算机,或其他硬件。除了那些,还用在客服、教育、医疗等行业,比如客服语音测试、白话评测等等。

△语音交互世界里的情境

2.如何评价语音交互

VUI的顺从程度低吗?

下交互法是一种很好的交互方法。人机交互正表现在对进行人的利用上,在快速性、准确性和注意背后负荷三个维度进行权衡。让用户的速度更快更准,最少需要关注后负荷的才是好的交互。我们去看看几种情况。

输入文字:服从极端。人道的话比感人的话要快,也不用聚精会神的看屏幕。以为感人的话也有错,正在往文字里输入语音交互表示没错。所以很多产品城都在减少文字输入处的语音导入。

任务:如果我们坐快车回家,在图形世界里用语音帮脚借车APP是不是更快?因为路程短,语音脚助的实际速度更快。把Siri叫醒说一句话,就没必要打开APP再面对了。现状下,输入任务简单堕落。如果指挥词有偏差,发音帮助脚理解你的意思,就会导致任务失败。我们需要考虑如何规划自己的使命,是“我要坐车回家”还是“开XX,坐车回家”?三次语音帮助后听不懂指令,还会继续考吗?扔掉语音投放任务,打开APP,找到熟悉的导入式面授 *** 作即可。

输出:相对于即时的图形反应,语音是一种不太合格的输出方式。它太慢太听话了。因为听觉是线性的,我们只能先听一句话再听下一句话,而不能像视觉那样快速地完成画面还原,也不能在文本间扫描跳跃。电话呼叫服务系统是那些浪费的方法之一。另外,连续听语音会消耗大量对战争形象资本的关注。如果客服看完了但是还有话要听,重听按0又是一场噩梦。另一个圈子里,我们部门的信息大部分来自视觉,而拼音法无法输出视觉信息。

一只脚被占据的合适的地方

那里使用的语音交互合适吗?一只脚被占的时候,比如开车、做饭、打游戏等。比如开车的时候需要眼睛看路,一只脚拿着靶盘,车内的情况是平静而稀疏的。在这种情况下,使用语音交互是合适的。另一方面,在输出层,如果视觉传播被占用,听觉传播更适合接收突发事件的主要信息。

门槛极低

语音交互的支持者认为,语音是最自然的交互方式。城市里人人说话,门槛极低,特别是对于输出困难的人(比如视力停滞的人),可以充分利用语音交互不停滞的情况。但是,在另一个圈子里,习惯触控的人不愿意背发音,害怕新技能的人也可以不愿意测试语音交互的“新”技能。

声音可以交流感情,但人可以通过不适应战争机器来交谈。

因为声音有声调有节拍,比笔墨更能沟通感情。成就是我们没有自定义战争,机器人,或者脚机对话。据统计,只有3%的人在公共场所使用Siri。我们默认文字是人们交换的一种方式,或者是猫狗交换我们认为是动物的植物的一种方式。当人们停止交换东西时,他们会更容易接受动作互动。所以人在用脚说话的时候会有一种奇怪的感觉,尤其是东方圈子的人到了道上,思想会更加停滞。

为了减轻用户的压力,推开心智区间,很多智能语音助脚器都会设置自己的“角色”。比如Siri,火辣又忠诚,略硬又小,又爱又唠叨。另外,注音助脚多为女声,这也是因为女声听起来越来越亲切包容。在 *** 纵的过程中正在取得成绩。如果一个男性的声音响起,用户只会感到被指责和批评。

另外,注音助脚不能太像真人。其实,恐惧谷认为,对于越来越像人的战斗工具,我们的好感度会有上有下,但是对于更像人而不是像人的工具,比如僵尸,我们是很讨厌的。从现实的恐惧之谷,我们可以害怕富有表现力的声音来帮助我们的脚。

△恐惧谷

不适合在公共场所使用。

语音交互不适合在公共场所使用,尤其是图书馆、办公室等安静的地方。

鉴定结果。在汉堡王的一个视频广告中,卖家首先走近屏幕说:“好吧,谷歌,什么是whoppers?”。“OKGoogle”是基于Android的手机大战GoogleHome的唤醒词。用户会发现在我下命令的情况下,装备已经启动并搜索了帝国堡垒,这是装备不足的识别系统形成的。为此,引入了声纹识别系统,以确保一个安静的成就,声纹考证的可靠性是另一个成就。

△汉堡王的视频告白

在大众圈也是如此。相比屏幕,公共场所的输入输出对话更容易听到。敏感的金融、医疗和公共利益风险更大。

场景说明

整体来说,语音交互至少需要两个要求:满意的音乐、低沉的音调、罕见的战争。在为数不多的场景中,车和家人满足了要求,脚机上的动人场景减少,一共3年。玛丽·米克尔2016年的声明也指出,好国家语音利用的次要场景是在家里(43%)、在公交车上(30%)和在路上(19%),东西只占3%。

3.轻松面对语音交互

事实上,语音交互系统的发展历史并不短。早在1952年,贝蒂实验室就开发了一个系统,可以识别Abebe,Audrey的数量。1962年,IBM制造了第一个机械鞋盒,可以通过语音停止简单的数学教学。

△IBM鞋盒系统

语音交互经过半个多世纪的发展,已经达到实用化的程度,遇到的困难也不断发展到利用过程中。

声音语音交互系统有三个典型的模块。自动语音识别(ASR)将声音转换为笔墨,而自然语言处理(NLP)解释笔墨的含义并给出响应。首先,输出疑问通过文本到语音(TTS)转换成声音。

△典型语音交互系统模块

近场识别容易问题

第一个简单的问题是得到发音的结果。在语音量的条件下,蔡奇具有更好的语音识别效果。有些公司宣称他们的语音识别率已经达到了95%甚至99%,但前提是音源相隔很远,情况极其平静,说话人的普通话语出格,而不是通常的使用场景。

根据音程,获取用户语音可以分为远场识别和近场识别,后者更容易。

飞机上的语音交互是典型的远场,距离声源较远,语音疑点量较低。另一个圈子,语音采集的交互比较简单,借助触摸屏。用户可以通过面对面的过程开始战斗,停止可疑号码收集,并确保可以记录用户的话。

近场语音交互以智能音箱为代表,声源较近,但不知道声源的详细位置。在这种情况下,有积极的噪音和混响反射。单靠麦克风无法满足要求,需要麦克风阵列支持。用户可以随机站成一圈。被声音吵醒后,他们需要定位声源位置,背诵目标识别声音,强化声音,降低其他区域的噪音。

△近场识别表示(出处:雷锋。com)

语音识别准确性

在实践中,经常使用的目标是识别单词错误率。微语音战对话研讨会团队的苦工黄教东近日宣布,微语音识别系统的故障率从5.9%进一步降低到5.1%,可与专业速记员媲美。第一个圈子里,有两个圈子,一个是手艺,包括隐藏的马匹和模型,机械训练和各种应对疑惑的方法,另一个圈子是计算资本和训练的宏大数据。

语义识别

如果在语音帮助下停止对话,你会发现你的语义理解走在了坚定的形式识别的套路上,你可以根据用户话中的具体词给出准确的答案。

约翰·席勒提出了“中国房间”的概念。一个不懂中文但会说英语的人在一个封闭的房间里。房间里有一本英语小册子,告诉你如何处理中文问题。用中文写的成绩通过窗户交到房间里,这个人停止寻找,在纸上写下相应的中文答案并上交。房间里的人可以认为这个人很懂中文,但他对此一无所知。训练机器理解语义类似于那个过程。通过过程练习,我们让机械的反应接近可以理解,却无法像人类一样真正理解文字。

文字是人与人之间交换的东西,在一定层面上适合人的认知系统。怎么才能等机器更了解我们?

目前的成果至少是分词、歧义和已知语音处理。中文单词不像英文单词那样用空分隔,歧义下对AI的要求更低。比如北京少江桥,可以通过两种方式分红:北京少江桥和北京少江桥。“鸡没了”有很多含义。Siri说:“打开,满了再卖。”现在它已经教会了“满”这个词,它会做什么呢?

多轮对话的结果

我们认为注音助脚很愚蠢,但这是偶然的,因为它违背了人类对话的原则。人类的对话看似简单,但会根据对圆景的疑惑和我的把握来调解对话的内容,也会有高低文之间的计较。然而,许多现有的产品缺乏对话和连接。注音帮助忽略高低文背景,只能停止单轮对话。看似停止的多轮对话,其实只是一组多个单轮对话。

“愚蠢”导致不自然,任务轻松度降低。比如当你问“明天天气怎么样?””它说下雨了,然后问,“后天呢?当时它没有多少白毛,问后天的气候。它只能再问一遍,“后天的气候怎么样?」

以上对话中,萧冰的女老师杨洋一会儿是游戏,一会儿女的是皮影戏,有对话形象。

△萧冰有一个对话形象。

四。语音交互的假设标准

由于特殊的白话文发言的情况不坚定,变化很大,VUI的互动想象和GUI是不同的,更详细和繁琐。亚马逊曾经为先驱们提供了一个交互想象的标准。

语音交互的想法至少可以分为几个步骤。最后先设定功能目标,再写脚本,也就是如何和用户的战争系统对话,第三步是设定流程和用户的利用方式等。通过定义需求,描述了奇妙技能的构造,包括完成一个功能需要什么参数,术语上有什么变化。例如,关于一个统一的功能,用户可以问“气候怎么样”或“里面下雨了吗”。

近场语音交互产品的热启动

近场语音交互的产品存在于火热的初创期,只要积累了必要的数据,就可以更好的推广产品体验。但如何提高销量,积累数据,才是产品启动时需要考虑的成果。如果期望语音交互产品能成为平台,千万量级是根本门槛。如果今年Echo的销量能达到预计的2亿台,基本上有足够的数据和成为平台的预期。海中有些模拟器以节日促销的形式卖出了100万台,比如单个11天猫99元的售价,希望通过流程的方法来停止数据的初期积累。

缺乏持续使用的权力战中心场景

新鲜感过后,很多人会对语音交互产生兴趣,触摸仍然是次要的交互方式。根据CreativeStrategies的数据,97%的人在两周内对Alexa的新功能感兴趣。根据语音实验室的数据,62%的Android用户很少使用语音来帮助他们的脚,iOS用户的这一比例为70%。现在的语音交互,缺少了只要出彩的中枢功能。即使是亚马逊的Echo,它最有用的功能依然是听歌,缺乏中枢的配合是无法替代的。

动词(verb的缩写)成就咨询

语音交互会成为支流交互方式吗?

笔者的看法是,就像触控已经取代了鼠标键盘一样,语音交互也不能成为支流。交互的世界本来就是多模态的,语音交互会丰富现有的交互情境,而不会取代其他。如上所述,语音交互并不能处理所有的成果,但可以用在特定的场景中。

多互动语音陪伴的选择没有错。比如语音和触觉的分离可以提高准确率,语音和视觉的分离,真实语音的输入和视觉反应的减少,脚姿的减少等等。

需求能逃脱语音交互的纯真吗?

Echo团队认为语音是最自然的交互方式,所以假设了语音交互。但是语音输入和视觉输出的模式已经被证明是成功的,我们在手机上正在使用的语音交互模式就是这样。新的EchoShow也已经从屏幕上删除,可以显示视觉上的疑虑。有没有需要对抗隧道的语音交互模型?似乎这个谜底曾经很明显。新的成果是,如果Echo缩小到屏幕上,用户会以为是音箱还是板子?

△减少屏幕上显示的回声。

不及物动词语音交互的定位

在质量上,语音交互授权方可以通过过程语音完成使命。通过流程语音能做到的,触控能做到的,Siri能做到的,Echo能做到的,没做过的大家都做不到。语音交互能完成什么独家使命来显示它的成本?

和崔

谢丽尔·普拉茨,一个语音幻想家,正在她的媒介上重复一个成就。VUI是对话式用户界面吗?

在语音交互的世界里,它是以零的使命为基础的,形式是简单的“发号施令——完成使命”,但不是自然对话。我们需要考虑如何下命令,对话间隔太近。如果要实现崔早晨的目标,语音交互必须更加智能和流畅,要通过真实对话的过程来完成使命,就像我们与人类对话时一样。

隐性成就

语音助脚要想更好用,更智能,就要不断收集用户的疑惑。是因为我们可以用语音帮助改变我的反应吗?如果注音助足的目标是贸易,是否可以怀疑它,提供信息,让它更了解我的爱好?

在另一个圈子里,语音能帮你的脚安静吗?进程唤醒词唤醒的语音交互产品会连接待机,从情境中获取声音,可以 *** 控那种机器。在一条消息中,Echo被破解,成为24小时窃听者。用邻接的方法,在德国被叫停销售的一款女生语音玩具“我的朋友Cayla”,通过其蓝牙邻接被证明是不安分的,女生与玩具对话的声音可以通过第三圈获得。

△女孩的声音玩具我的朋友凯拉

语音交互领域的测试方法

一般产品的研究方法是通用的,可用性测试、访谈等方法仍然适合研究语音交互系统。在测试VUI的时候,可以特别注意一些地方,比如用户的反应,胜率,对可能失利的压制等等。有一些具体的指标可以用来评测,比如速度准确度、用户支出的认知勤奋度、清晰度和可懂度、系统友好度和音量等。

以上介绍了语音交互世界里一个有趣的测试方法——WOZ法。因为语音交互系统成本低,就在系统开放之前,Woz(绿野仙踪)的这个型式测试结果很低。研讨会工作人员扮演向导的角色,由一般研讨会工作人员协助。在用户 *** 纵它之后,向导在黑暗中手动播放响应。

△车内沃兹测试(缘起:设计语音用户界面)

语音交互还是要进行的,成为一个熟练的人需要时间。但它的呈现意味着我们可以用更多的方法来 *** 控设备和举报疑点,我们离幻想的交互世界又进了一步。以上语音互动简单总结,发音有疏漏和错误。告别和交换更正。

七。参考资料

凯茜·珀尔。设计语音用户界面。奥莱利媒体,2016

克利福德纳斯,斯科特勇敢。为演讲而连线。麻省理工学院出版社

谢丽尔·普拉茨。缩小的裂缝:语音用户界面和对话用户界面。中等:微软设计

亚马逊Alexa:语音设计指南。亚马孙

极限,阅读智能语音前端处置的关键成果,Leifeng.com。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/777403.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存