为什么会有语音交互?适用于什么场景?不适合做什么?文章将为你解读。
什么是语音交互?
在机器出现之前,人类最早的交互方式是口水战。现在,随着自然交互的趋势,我们又回到了文字的交互局面。
原始的交互方式是人与人之间用语言、动作、眼神进行交互,人与物之间用动作进行交互。机械刚出现的时候,人机交互的概念出现了,机械容易 *** 作,需要人去学习,去适应战争。Shos的“QWERTY”键盘会流传开来,因为字母的布局可以降低打字的速度,防止快速输入形成关键环节的相互干扰。
两次战争期间的讨论促进了人果计划的发展,发展了机械顺从人类、进步人士顺从的观念。在计算机领域,从CLI进入GUI,再到现在的一个支流 *** 控方式——触控,用脚趾在屏幕上滑动按压,这是一个很大的突破。语音用户界面(VUI),脚部姿势、动作、情绪交互,甚至脑机交互都属于自然用户界面(NUI)。
从运营商的角度来看,语音交互是基于笔记本电脑或计算机,或其他硬件。除了那些,还用在客服、教育、医疗等行业,比如客服语音测试、白话评测等等。
图1语音交互世界的情况
如何评价语音交互?
VUI的顺从程度低吗?
下交互法是一种很好的交互方法。人机交互正表现在对进行人的利用上,在快速性、准确性和注意背后负荷三个维度进行权衡。让用户的速度更快更准,最少需要关注后负荷的才是好的交互。我们去看看几种情况。
输入文字:服从极端。人道的话比感人的话要快,也不用聚精会神的看屏幕。以为感人的话也有错,正在往文字里输入语音交互表示没错。所以很多产品城都在减少文字输入处的语音导入。
任务:如果我们坐快车回家,在图形世界里用语音帮脚借车APP是不是更快?因为路程短,语音脚助的实际速度更快。把Siri叫醒说一句话,就没必要打开APP再面对了。现状下,输入任务简单堕落。如果指挥词有偏差,发音帮助脚理解你的意思,就会导致任务失败。我们需要考虑如何安排我们的任务。是“我要弄辆车回家”还是“开XX弄辆车回家”?三次语音帮助后听不懂指令,还会继续考吗?扔掉语音投放任务,打开APP,找到熟悉的导入式面授 *** 作即可。
输出:相对于即时的图形反应,语音是一种不太合格的输出方式。它太慢太听话了。因为听觉是线性的,我们只能先听一句话再听下一句话,而不能像视觉那样快速地完成画面还原,也不能在文本间扫描跳跃。电话呼叫服务系统是那些浪费的方法之一。另外连续听声音会消耗很多钱去关注战争形象。如果客服读了但是有话要听,重听按0又是一场噩梦。另一个圈子里,我们部门的信息大部分来自视觉,而拼音法无法输出视觉信息。
一只脚被占据的合适的地方
那里使用的语音交互合适吗?一只脚被占的时候,比如开车、做饭、打游戏等。比如开车的时候需要眼睛看路,一只脚拿着靶盘,车内的情况是平静而稀疏的。在这种情况下,使用语音交互是合适的。另一方面,在输出层,如果视觉传播被占用,听觉传播更适合接收突发事件的主要信息。
门槛极低
语音交互的支持者认为,语音是最自然的交互方式。城市里人人说话,门槛极低,特别是对于输出困难的人(比如视力停滞的人),可以充分利用语音交互不停滞的情况。但是在另一个圈子里,习惯了触摸的人不愿意背发音,害怕新技能的人也可以不愿意测试语音交互的“新”技能。
声音可以交流感情,但人可以通过不适应战争机器来交谈。
因为声音有声调有节拍,比笔墨更能沟通感情。成就是我们没有自定义战争,机器人互相对话。据统计,只有3%的人在公共场所使用Siri。我们默认文字是人们交换的一种方式,或者是猫狗交换我们认为是动物的植物的一种方式。当人们停止交换东西时,他们会更容易接受动作互动。所以人在用脚说话的时候会有一种奇怪的感觉,尤其是东方圈子的人到了道上,思想会更加停滞。
为了减轻用户的压力,推开心理区间,很多智能语音助脚器都会设置自己的“角色”。比如Siri,火辣又忠诚,略硬又小,又爱又唠叨。另外,注音助脚多为女声,这也是因为女声听起来越来越亲切包容。在 *** 纵的过程中正在取得成绩。如果一个男性的声音响起,用户只会感到被指责和批评。
另外,注音助脚不能太像真人。其实,恐惧谷认为,对于越来越像人的战斗工具,我们的好感度会有上有下,但是对于更像人而不是像人的工具,比如僵尸,我们是很讨厌的。从现实的恐惧之谷,我们可以害怕富有表现力的声音来帮助我们的脚。
图2恐惧谷
不适合在公共场所使用。
语音交互不适合在公共场所使用,尤其是图书馆、办公室等安静的地方。
鉴定结果。在汉堡王的一个视频广告中,卖家首先靠近屏幕说:“好吧,谷歌,什么是whoppers?”。“OKGoogle”是基于Android的手机大战GoogleHome的唤醒词。用户会发现装备已经在下达命令的情况下启动并搜索了帝国堡垒,这是装备不足的识别系统形成的。为此,引入了声纹识别系统,以确保一个安静的成就,声纹考证的可靠性是另一个成就。
图3汉堡王的视频告白
在大众圈也是如此。相比屏幕,公共场所的输入输出对话更容易听到。敏感的金融、医疗和公共利益风险更大。
场景说明
整体来说,语音交互至少需要两个要求:音乐满意,低战,稀疏。少数场景,车和家满足要求,脚机上移动场景减少,一共三年。玛丽·米克尔2016年的声明也指出,好国家语音利用的次要场景是在家里(43%)、在公交车上(30%)和在路上(19%),东西只占3%。
语音交互很容易开发
事实上,语音交互系统的发展历史并不短。早在1952年,贝蒂实验室就开发了一个系统,可以识别Abebe,Audrey的数量。1962年,IBM制造了第一个机械鞋盒,可以通过语音停止简单的数学教学。
图4IBM鞋盒系统
经过半个多世纪的发展,语音交互仍然达到实用化的水平,遇到的困难也不断发展到利用过程中。
声音语音交互系统有三个典型的模块。自动语音识别(ASR)将声音转换为笔墨,而自然语言处理(NLP)解释笔墨的含义并给出响应。首先,输出疑问通过文本到语音(TTS)转换成声音。
图5典型的语音交互系统模块
近场识别容易问题
第一个简单的问题是得到发音的结果。在语音量的条件下,蔡奇具有更好的语音识别效果。有些公司宣称他们的语音识别率已经达到了95%甚至99%,但前提是音源相隔很远,情况极其平静,说话人的普通话语出格,而不是通常的使用场景。
根据音程,获取用户语音可以分为远场识别和近场识别,后者更容易。
飞机上的语音交互是典型的远场,距离声源较远,语音疑点量较低。另一个圈子,语音采集的交互比较简单,借助触摸屏。用户可以通过面对面的过程开始战斗,停止可疑号码收集,保证用户的语音可以被记录。
近场语音交互以智能音箱为代表,声源较近,但不知道声源的详细位置。在这种情况下,有积极的噪音和混响反射。单靠麦克风无法满足要求,需要麦克风阵列支持。用户可以随机站成一圈。被声音吵醒后,他们需要定位声源的位置,拾取目标背面的声音,加强声音,降低其他区域的噪音。
图6近场识别表示法(出处:雷)
语音识别准确性
在实践中,经常使用的目标是识别单词错误率。微语音战对话研讨会团队的苦工黄教东近日宣布,微语音识别系统的故障率从5.9%进一步降低到5.1%,可与专业速记员媲美。第一个圈子里,有两个圈子,一个是手艺,包括隐藏的马匹和模型,机械训练和各种应对疑惑的方法,另一个圈子是计算资本和训练的宏大数据。
语义识别
如果在语音帮助下停止对话,你会发现你的语义理解走在了坚定的形式识别的套路上,你可以根据用户话中的具体词给出准确的答案。
约翰·席勒提出了“中国房间”的概念。一个不懂中文会说英语的人在一个锁着的房间里。房间里有一本英文小册子,告诉你如何应对回应中的中文问题。用中文写的成绩通过窗户交到房间里,这个人停止寻找,把用中文写的相应答案写在纸上上交。房间里的人可以认为这个人很懂中文,但他对此一无所知。训练机器理解语义类似于那个过程。通过过程练习,我们让机械的反应接近可以理解,却无法像人类一样真正理解文字。
文字是人与人之间交换的东西,在一定层面上适合人的认知系统。怎么才能等机器更了解我们?
目前的成果至少是分词、歧义和已知语音处理。中文单词不像英文单词那样用空分隔,歧义下对AI的要求更低。比如“北京韶江桥”可以通过“北京/韶江桥”和“北京韶江桥”两种方式分红。“鸡没吃过”有很多意思,Siri说“吃饱了再卖”。现在它已经教会了“你吃饱了吗”这个词,它会做什么呢?
多轮对话的结果
我们认为注音助脚很愚蠢,但这是偶然的,因为它违背了人类对话的原则。人类的对话看似简单,但会根据对圆景的疑惑和我的把握来调解对话的内容,也会有高低文之间的计较。而现有的很多产品,对话缺乏衔接,忽略了有语音帮助的高层和低层场景,只能停止单轮对话,看似停止的多轮对话也只是几个单轮对话的组。
“傻”带来的是不自然,任务轻松度的降低。例如,当你请求语音帮助时,“明天的气候如何?”下雨了,然后问:“那后天呢?”当时其实也不是很白发问后天的气候。它只能问“后天的气候如何?”。
以上对话中,萧冰的女老师杨洋一会儿是游戏,一会儿女的是皮影戏,有对话形象。
图7萧冰显示了对话的图像。
语音交互假设标准
由于特殊的白话文发言的情况不坚定,变化很大,VUI的互动想象和GUI是不同的,更详细和繁琐。亚马逊曾经为先驱们提供了一个交互想象的标准。
语音交互的思路至少可以分为几个步骤:在最后建立功能目标;其次,写剧本,也就是用户战系统如何对话;第三步是建立流程,用户的利用方式等。,并按需求定义奇妙技能的结构,包括完成一个功能需要哪些参数,术语上有哪些变化。比如关于一个功能的统一,用户可以问“气候怎么样”或者“里面下雨了吗?”
近场语音交互产品的热启动
近场语音交互的产品存在于火热的初创期,只要积累了必要的数据,就可以更好的推广产品体验。但如何提高销量,积累数据,才是产品启动时需要考虑的成果。如果期望语音交互产品能成为平台,千万量级是根本门槛。如果今年Echo的销量能达到预计的2亿台,基本上有足够的数据和成为平台的预期。海中有些模拟器以节日促销的形式卖出了100万台,比如单个11天猫99元的售价,希望通过流程的方法来停止数据的初期积累。
缺乏持续使用的权力战中心场景
新鲜感过后,很多人会对语音交互产生兴趣,触摸仍然是次要的交互方式。根据CreativeStrategies的数据,97%的人在两周内对Alexa的新功能感兴趣。根据语音实验室的数据,62%的Android用户很少使用语音来帮助他们的脚,iOS用户的这一比例为70%。现在的语音交互,缺少了只要出彩的中枢功能。即使是亚马逊的Echo,它最有用的功能依然是听歌,缺乏中枢的配合是无法替代的。
成就咨询
语音交互会成为支流交互方式吗?
笔者的看法是,就像触控已经取代了鼠标键盘一样,语音交互也不能成为支流。交互的世界本来就是多模态的,语音交互会丰富现有的交互情境,而不会取代其他。如上所述,语音交互并不能处理所有的成果,但可以用在特定的场景中。
多互动语音陪伴的选择没有错。比如语音和触觉的分离可以提高准确率,语音和视觉的分离,真实语音的输入和视觉反应的减少,脚姿的减少等等。
需求能逃脱语音交互的纯真吗?
Echo团队认为语音是最自然的交互方式,所以假设了语音交互。但是语音输入和视觉输出的模式已经被证明是成功的,我们在手机上正在使用的语音交互模式就是这样。新的EchoShow也已经从屏幕上删除,可以显示视觉上的疑虑。有没有需要对抗隧道的语音交互模型?似乎这个谜底曾经很明显。新的成果是,如果Echo缩小到屏幕上,用户会以为是音箱还是板子?
图8屏幕上显示的回声
语音交互的定位
在质量上,语音交互授权方可以通过过程语音完成使命。通过流程语音能做到的,触控能做到的,Siri能做到的,Echo能做到的,没做过的大家都做不到。语音交互能完成什么独家使命来显示它的成本?
和崔
谢丽尔·普拉茨,一个语音幻想家,正在她的媒介上重复一个成就。VUI是对话式用户界面吗?
在语音交互的世界里,它是基于零时的使命,形式很简单“发号施令——完成使命”,但不是自然对话。我们需要考虑如何发号施令,对话的间隔太近了。如果要实现崔早晨的目标,语音交互必须更加智能和流畅,要通过真实对话的过程来完成使命,就像我们与人类对话时一样。
隐性成就
语音助脚要想更好用,更智能,就要不断收集用户的疑惑。是因为我们可以用语音帮助改变我的反应吗?如果注音助足的目标是贸易,是否可以怀疑它,提供信息,让它更了解我的爱好?
另一个圈子,语音能帮你的脚安静吗?进程唤醒词唤醒的语音交互产品会连接待机,从情境中获取声音,可以 *** 控那种机器。在一则新闻中,Echo被破解,变成了24小时监听设备。通过连接方式,证明了在德国被停止销售的女生语音玩具“我的朋友Cayla”的蓝牙连接是不安分的,可以通过第三圈获得女生与玩具对话的声音。
图9女孩的声音玩具我的朋友凯拉
语音交互领域的测试方法
一般产品的研究方法是通用的,可用性测试、访谈等方法仍然适合研究语音交互系统。在测试VUI的时候,可以特别注意一些地方,比如用户的反应,胜率,对可能失利的压制等等。有一些具体的指标可以用来评测,比如速度准确度、用户支出的认知勤奋度、清晰度和可懂度、系统友好度和音量等。
以上介绍了语音交互界一个有趣的测试方法:Woz法。因为语音交互系统成本低,就在系统开放之前,Woz(绿野仙踪)的这个型式测试结果很低。研讨会工作人员扮演向导的角色,由一般研讨会工作人员协助。在用户 *** 纵它之后,向导在黑暗中手动播放响应。
图10汽车中的Woz测试(起源:设计语音用户界面)
语音交互还是要进行的,成为一个熟练的人需要时间。但它的呈现意味着我们可以用更多的方法来 *** 控设备和举报疑点,我们离幻想的交互世界又进了一步。以上语音互动简单总结,发音有疏漏和错误。告别和交换更正。
参考材料:
凯茜·珀尔。设计语音用户界面。奥莱利媒体,2016
克利福德纳斯,斯科特勇敢。为演讲而连线。麻省理工学院出版社
谢丽尔·普拉茨。缩小的裂缝:语音用户界面和对话用户界面。中等:微软设计
亚马逊Alexa:语音设计指南。亚马孙
极限,阅读智能语音前端处置的关键成果,Leifeng.com。
监制:网易产品开发部用户研究员王梅子,目前正在与智能硬件用户进行讨论。喜欢自己不了解的作品,在用户讨论的道路(树)上不断成长。
本文作者@吴慧心获@有盐咸面(微疑公众号:有盐咸面)授权发布,已承诺停止转载。
标题来自unsplash,基于CC0和谈。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)