网易用研：超全面的语音交互知识科普_服务器

网易用研：超全面的语音交互知识科普

为什么会有语音交互？适用于什么场景？不适合做什么？文章将为你解读。

1.什么是语音交互？

在机器出现之前，人类最早的交互方式是口水战。现在，随着自然交互的趋势，我们又回到了文字的交互局面。

原始的交互方式是人与人之间用语言、动作、眼神进行交互，人与物之间用动作进行交互。机械刚出现的时候，人机交互的概念出现了，机械容易 *** 作，需要人去学习，去适应战争。Shos的“QWERTY”键盘会普及，因为字母的排列可以减缓打字速度，防止快速输入相互干扰形成关键环节。

两次战争期间的讨论促进了人类果实计划的发展，发展了符合人类和进步人士服从的机械概念。在计算机领域，从CLI进入GUI，再到现在的一个支流 *** 控方式——触控，用脚趾在屏幕上滑动按压，这是一个很大的突破。语音用户界面(VUI)，脚部姿势、动作、情绪交互，甚至脑机交互都属于自然用户界面(NUI)。

从运营商的角度来看，语音交互是基于笔记本电脑或计算机，或其他硬件。除了那些，还用在客服、教育、医疗等行业，比如客服语音测试、白话评测等等。

△语音交互世界里的情境

2.如何评价语音交互

VUI的顺从程度低吗？

下交互法是一种很好的交互方法。人机交互正表现在对进行人的利用上，在快速性、准确性和注意背后负荷三个维度进行权衡。让用户的速度更快更准，最少需要关注后负荷的才是好的交互。我们去看看几种情况。

输入文字:服从极端。人道的话比感人的话要快，也不用聚精会神的看屏幕。以为感人的话也有错，正在往文字里输入语音交互表示没错。所以很多产品城都在减少文字输入处的语音导入。

任务:如果我们坐快车回家，在图形世界里用语音帮脚借车APP是不是更快？因为路程短，语音脚助的实际速度更快。把Siri叫醒说一句话，就没必要打开APP再面对了。现状下，输入任务简单堕落。如果指挥词有偏差，发音帮助脚理解你的意思，就会导致任务失败。我们需要考虑如何规划自己的使命，是“我要坐车回家”还是“开XX，坐车回家”？三次语音帮助后听不懂指令，还会继续考吗？扔掉语音投放任务，打开APP，找到熟悉的导入式面授 *** 作即可。

输出:相对于即时的图形反应，语音是一种不太合格的输出方式。它太慢太听话了。因为听觉是线性的，我们只能先听一句话再听下一句话，而不能像视觉那样快速地完成画面还原，也不能在文本间扫描跳跃。电话呼叫服务系统是那些浪费的方法之一。另外，连续听语音会消耗大量对战争形象资本的关注。如果客服看完了但是还有话要听，重听按0又是一场噩梦。另一个圈子里，我们部门的信息大部分来自视觉，而拼音法无法输出视觉信息。

一只脚被占据的合适的地方

那里使用的语音交互合适吗？一只脚被占的时候，比如开车、做饭、打游戏等。比如开车的时候需要眼睛看路，一只脚拿着靶盘，车内的情况是平静而稀疏的。在这种情况下，使用语音交互是合适的。另一方面，在输出层，如果视觉传播被占用，听觉传播更适合接收突发事件的主要信息。

门槛极低

语音交互的支持者认为，语音是最自然的交互方式。城市里人人说话，门槛极低，特别是对于输出困难的人(比如视力停滞的人)，可以充分利用语音交互不停滞的情况。但是，在另一个圈子里，习惯触控的人不愿意背发音，害怕新技能的人也可以不愿意测试语音交互的“新”技能。

声音可以交流感情，但人可以通过不适应战争机器来交谈。

因为声音有声调有节拍，比笔墨更能沟通感情。成就是我们没有自定义战争，机器人，或者脚机对话。据统计，只有3%的人在公共场所使用Siri。我们默认文字是人们交换的一种方式，或者是猫狗交换我们认为是动物的植物的一种方式。当人们停止交换东西时，他们会更容易接受动作互动。所以人在用脚说话的时候会有一种奇怪的感觉，尤其是东方圈子的人到了道上，思想会更加停滞。

为了减轻用户的压力，推开心智区间，很多智能语音助脚器都会设置自己的“角色”。比如Siri，火辣又忠诚，略硬又小，又爱又唠叨。另外，注音助脚多为女声，这也是因为女声听起来越来越亲切包容。在 *** 纵的过程中正在取得成绩。如果一个男性的声音响起，用户只会感到被指责和批评。

另外，注音助脚不能太像真人。其实，恐惧谷认为，对于越来越像人的战斗工具，我们的好感度会有上有下，但是对于更像人而不是像人的工具，比如僵尸，我们是很讨厌的。从现实的恐惧之谷，我们可以害怕富有表现力的声音来帮助我们的脚。

△恐惧谷

不适合在公共场所使用。

语音交互不适合在公共场所使用，尤其是图书馆、办公室等安静的地方。

鉴定结果。在汉堡王的一个视频广告中，卖家首先走近屏幕说:“好吧，谷歌，什么是whoppers？”。“OKGoogle”是基于Android的手机大战GoogleHome的唤醒词。用户会发现在我下命令的情况下，装备已经启动并搜索了帝国堡垒，这是装备不足的识别系统形成的。为此，引入了声纹识别系统，以确保一个安静的成就，声纹考证的可靠性是另一个成就。

△汉堡王的视频告白

在大众圈也是如此。相比屏幕，公共场所的输入输出对话更容易听到。敏感的金融、医疗和公共利益风险更大。

场景说明

整体来说，语音交互至少需要两个要求:满意的音乐、低沉的音调、罕见的战争。在为数不多的场景中，车和家人满足了要求，脚机上的动人场景减少，一共3年。玛丽·米克尔2016年的声明也指出，好国家语音利用的次要场景是在家里(43%)、在公交车上(30%)和在路上(19%)，东西只占3%。

3.轻松面对语音交互

事实上，语音交互系统的发展历史并不短。早在1952年，贝蒂实验室就开发了一个系统，可以识别Abebe，Audrey的数量。1962年，IBM制造了第一个机械鞋盒，可以通过语音停止简单的数学教学。

△IBM鞋盒系统

语音交互经过半个多世纪的发展，已经达到实用化的程度，遇到的困难也不断发展到利用过程中。

声音语音交互系统有三个典型的模块。自动语音识别(ASR)将声音转换为笔墨，而自然语言处理(NLP)解释笔墨的含义并给出响应。首先，输出疑问通过文本到语音(TTS)转换成声音。

△典型语音交互系统模块

近场识别容易问题

第一个简单的问题是得到发音的结果。在语音量的条件下，蔡奇具有更好的语音识别效果。有些公司宣称他们的语音识别率已经达到了95%甚至99%，但前提是音源相隔很远，情况极其平静，说话人的普通话语出格，而不是通常的使用场景。

根据音程，获取用户语音可以分为远场识别和近场识别，后者更容易。

飞机上的语音交互是典型的远场，距离声源较远，语音疑点量较低。另一个圈子，语音采集的交互比较简单，借助触摸屏。用户可以通过面对面的过程开始战斗，停止可疑号码收集，并确保可以记录用户的话。

近场语音交互以智能音箱为代表，声源较近，但不知道声源的详细位置。在这种情况下，有积极的噪音和混响反射。单靠麦克风无法满足要求，需要麦克风阵列支持。用户可以随机站成一圈。被声音吵醒后，他们需要定位声源位置，背诵目标识别声音，强化声音，降低其他区域的噪音。

△近场识别表示(出处:雷锋。com)

语音识别准确性

在实践中，经常使用的目标是识别单词错误率。微语音战对话研讨会团队的苦工黄教东近日宣布，微语音识别系统的故障率从5.9%进一步降低到5.1%，可与专业速记员媲美。第一个圈子里，有两个圈子，一个是手艺，包括隐藏的马匹和模型，机械训练和各种应对疑惑的方法，另一个圈子是计算资本和训练的宏大数据。

语义识别

如果在语音帮助下停止对话，你会发现你的语义理解走在了坚定的形式识别的套路上，你可以根据用户话中的具体词给出准确的答案。

约翰·席勒提出了“中国房间”的概念。一个不懂中文但会说英语的人在一个封闭的房间里。房间里有一本英语小册子，告诉你如何处理中文问题。用中文写的成绩通过窗户交到房间里，这个人停止寻找，在纸上写下相应的中文答案并上交。房间里的人可以认为这个人很懂中文，但他对此一无所知。训练机器理解语义类似于那个过程。通过过程练习，我们让机械的反应接近可以理解，却无法像人类一样真正理解文字。

文字是人与人之间交换的东西，在一定层面上适合人的认知系统。怎么才能等机器更了解我们？

目前的成果至少是分词、歧义和已知语音处理。中文单词不像英文单词那样用空分隔，歧义下对AI的要求更低。比如北京少江桥，可以通过两种方式分红:北京少江桥和北京少江桥。“鸡没了”有很多含义。Siri说:“打开，满了再卖。”现在它已经教会了“满”这个词，它会做什么呢？

多轮对话的结果

我们认为注音助脚很愚蠢，但这是偶然的，因为它违背了人类对话的原则。人类的对话看似简单，但会根据对圆景的疑惑和我的把握来调解对话的内容，也会有高低文之间的计较。然而，许多现有的产品缺乏对话和连接。注音帮助忽略高低文背景，只能停止单轮对话。看似停止的多轮对话，其实只是一组多个单轮对话。

“愚蠢”导致不自然，任务轻松度降低。比如当你问“明天天气怎么样？””它说下雨了，然后问，“后天呢？当时它没有多少白毛，问后天的气候。它只能再问一遍，“后天的气候怎么样？」

以上对话中，萧冰的女老师杨洋一会儿是游戏，一会儿女的是皮影戏，有对话形象。

△萧冰有一个对话形象。

四。语音交互的假设标准

由于特殊的白话文发言的情况不坚定，变化很大，VUI的互动想象和GUI是不同的，更详细和繁琐。亚马逊曾经为先驱们提供了一个交互想象的标准。

语音交互的想法至少可以分为几个步骤。最后先设定功能目标，再写脚本，也就是如何和用户的战争系统对话，第三步是设定流程和用户的利用方式等。通过定义需求，描述了奇妙技能的构造，包括完成一个功能需要什么参数，术语上有什么变化。例如，关于一个统一的功能，用户可以问“气候怎么样”或“里面下雨了吗”。

近场语音交互产品的热启动

近场语音交互的产品存在于火热的初创期，只要积累了必要的数据，就可以更好的推广产品体验。但如何提高销量，积累数据，才是产品启动时需要考虑的成果。如果期望语音交互产品能成为平台，千万量级是根本门槛。如果今年Echo的销量能达到预计的2亿台，基本上有足够的数据和成为平台的预期。海中有些模拟器以节日促销的形式卖出了100万台，比如单个11天猫99元的售价，希望通过流程的方法来停止数据的初期积累。

缺乏持续使用的权力战中心场景

新鲜感过后，很多人会对语音交互产生兴趣，触摸仍然是次要的交互方式。根据CreativeStrategies的数据，97%的人在两周内对Alexa的新功能感兴趣。根据语音实验室的数据，62%的Android用户很少使用语音来帮助他们的脚，iOS用户的这一比例为70%。现在的语音交互，缺少了只要出彩的中枢功能。即使是亚马逊的Echo，它最有用的功能依然是听歌，缺乏中枢的配合是无法替代的。

动词（verb的缩写）成就咨询

语音交互会成为支流交互方式吗？

笔者的看法是，就像触控已经取代了鼠标键盘一样，语音交互也不能成为支流。交互的世界本来就是多模态的，语音交互会丰富现有的交互情境，而不会取代其他。如上所述，语音交互并不能处理所有的成果，但可以用在特定的场景中。

多互动语音陪伴的选择没有错。比如语音和触觉的分离可以提高准确率，语音和视觉的分离，真实语音的输入和视觉反应的减少，脚姿的减少等等。

需求能逃脱语音交互的纯真吗？

Echo团队认为语音是最自然的交互方式，所以假设了语音交互。但是语音输入和视觉输出的模式已经被证明是成功的，我们在手机上正在使用的语音交互模式就是这样。新的EchoShow也已经从屏幕上删除，可以显示视觉上的疑虑。有没有需要对抗隧道的语音交互模型？似乎这个谜底曾经很明显。新的成果是，如果Echo缩小到屏幕上，用户会以为是音箱还是板子？

△减少屏幕上显示的回声。

不及物动词语音交互的定位

在质量上，语音交互授权方可以通过过程语音完成使命。通过流程语音能做到的，触控能做到的，Siri能做到的，Echo能做到的，没做过的大家都做不到。语音交互能完成什么独家使命来显示它的成本？

和崔

谢丽尔·普拉茨，一个语音幻想家，正在她的媒介上重复一个成就。VUI是对话式用户界面吗？

在语音交互的世界里，它是以零的使命为基础的，形式是简单的“发号施令——完成使命”，但不是自然对话。我们需要考虑如何下命令，对话间隔太近。如果要实现崔早晨的目标，语音交互必须更加智能和流畅，要通过真实对话的过程来完成使命，就像我们与人类对话时一样。

隐性成就

语音助脚要想更好用，更智能，就要不断收集用户的疑惑。是因为我们可以用语音帮助改变我的反应吗？如果注音助足的目标是贸易，是否可以怀疑它，提供信息，让它更了解我的爱好？

在另一个圈子里，语音能帮你的脚安静吗？进程唤醒词唤醒的语音交互产品会连接待机，从情境中获取声音，可以 *** 控那种机器。在一条消息中，Echo被破解，成为24小时窃听者。用邻接的方法，在德国被叫停销售的一款女生语音玩具“我的朋友Cayla”，通过其蓝牙邻接被证明是不安分的，女生与玩具对话的声音可以通过第三圈获得。

△女孩的声音玩具我的朋友凯拉

语音交互领域的测试方法

一般产品的研究方法是通用的，可用性测试、访谈等方法仍然适合研究语音交互系统。在测试VUI的时候，可以特别注意一些地方，比如用户的反应，胜率，对可能失利的压制等等。有一些具体的指标可以用来评测，比如速度准确度、用户支出的认知勤奋度、清晰度和可懂度、系统友好度和音量等。

以上介绍了语音交互世界里一个有趣的测试方法——WOZ法。因为语音交互系统成本低，就在系统开放之前，Woz(绿野仙踪)的这个型式测试结果很低。研讨会工作人员扮演向导的角色，由一般研讨会工作人员协助。在用户 *** 纵它之后，向导在黑暗中手动播放响应。

△车内沃兹测试(缘起:设计语音用户界面)

语音交互还是要进行的，成为一个熟练的人需要时间。但它的呈现意味着我们可以用更多的方法来 *** 控设备和举报疑点，我们离幻想的交互世界又进了一步。以上语音互动简单总结，发音有疏漏和错误。告别和交换更正。

七。参考资料

凯茜·珀尔。设计语音用户界面。奥莱利媒体，2016

克利福德纳斯，斯科特勇敢。为演讲而连线。麻省理工学院出版社

谢丽尔·普拉茨。缩小的裂缝:语音用户界面和对话用户界面。中等:微软设计

亚马逊Alexa:语音设计指南。亚马孙

极限，阅读智能语音前端处置的关键成果，Leifeng.com。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/777403.html

网易用研：超全面的语音交互知识科普

发表评论

评论列表（0条）