语音交互科普：AI能和你语音聊天吗？_服务器

语音交互科普：AI能和你语音聊天吗？

为什么会有语音交互？适用于什么场景？不适合做什么？文章将为你解读。

什么是语音交互？

在机器出现之前，人类最早的交互方式是口水战。现在，随着自然交互的趋势，我们又回到了文字的交互局面。

原始的交互方式是人与人之间用语言、动作、眼神进行交互，人与物之间用动作进行交互。机械刚出现的时候，人机交互的概念出现了，机械容易 *** 作，需要人去学习，去适应战争。Shos的“QWERTY”键盘会流传开来，因为字母的布局可以降低打字的速度，防止快速输入形成关键环节的相互干扰。

两次战争期间的讨论促进了人果计划的发展，发展了机械顺从人类、进步人士顺从的观念。在计算机领域，从CLI进入GUI，再到现在的一个支流 *** 控方式——触控，用脚趾在屏幕上滑动按压，这是一个很大的突破。语音用户界面(VUI)，脚部姿势、动作、情绪交互，甚至脑机交互都属于自然用户界面(NUI)。

从运营商的角度来看，语音交互是基于笔记本电脑或计算机，或其他硬件。除了那些，还用在客服、教育、医疗等行业，比如客服语音测试、白话评测等等。

图1语音交互世界的情况

如何评价语音交互？

VUI的顺从程度低吗？

下交互法是一种很好的交互方法。人机交互正表现在对进行人的利用上，在快速性、准确性和注意背后负荷三个维度进行权衡。让用户的速度更快更准，最少需要关注后负荷的才是好的交互。我们去看看几种情况。

输入文字:服从极端。人道的话比感人的话要快，也不用聚精会神的看屏幕。以为感人的话也有错，正在往文字里输入语音交互表示没错。所以很多产品城都在减少文字输入处的语音导入。

任务:如果我们坐快车回家，在图形世界里用语音帮脚借车APP是不是更快？因为路程短，语音脚助的实际速度更快。把Siri叫醒说一句话，就没必要打开APP再面对了。现状下，输入任务简单堕落。如果指挥词有偏差，发音帮助脚理解你的意思，就会导致任务失败。我们需要考虑如何安排我们的任务。是“我要弄辆车回家”还是“开XX弄辆车回家”？三次语音帮助后听不懂指令，还会继续考吗？扔掉语音投放任务，打开APP，找到熟悉的导入式面授 *** 作即可。

输出:相对于即时的图形反应，语音是一种不太合格的输出方式。它太慢太听话了。因为听觉是线性的，我们只能先听一句话再听下一句话，而不能像视觉那样快速地完成画面还原，也不能在文本间扫描跳跃。电话呼叫服务系统是那些浪费的方法之一。另外连续听声音会消耗很多钱去关注战争形象。如果客服读了但是有话要听，重听按0又是一场噩梦。另一个圈子里，我们部门的信息大部分来自视觉，而拼音法无法输出视觉信息。

一只脚被占据的合适的地方

那里使用的语音交互合适吗？一只脚被占的时候，比如开车、做饭、打游戏等。比如开车的时候需要眼睛看路，一只脚拿着靶盘，车内的情况是平静而稀疏的。在这种情况下，使用语音交互是合适的。另一方面，在输出层，如果视觉传播被占用，听觉传播更适合接收突发事件的主要信息。

门槛极低

语音交互的支持者认为，语音是最自然的交互方式。城市里人人说话，门槛极低，特别是对于输出困难的人(比如视力停滞的人)，可以充分利用语音交互不停滞的情况。但是在另一个圈子里，习惯了触摸的人不愿意背发音，害怕新技能的人也可以不愿意测试语音交互的“新”技能。

声音可以交流感情，但人可以通过不适应战争机器来交谈。

因为声音有声调有节拍，比笔墨更能沟通感情。成就是我们没有自定义战争，机器人互相对话。据统计，只有3%的人在公共场所使用Siri。我们默认文字是人们交换的一种方式，或者是猫狗交换我们认为是动物的植物的一种方式。当人们停止交换东西时，他们会更容易接受动作互动。所以人在用脚说话的时候会有一种奇怪的感觉，尤其是东方圈子的人到了道上，思想会更加停滞。

为了减轻用户的压力，推开心理区间，很多智能语音助脚器都会设置自己的“角色”。比如Siri，火辣又忠诚，略硬又小，又爱又唠叨。另外，注音助脚多为女声，这也是因为女声听起来越来越亲切包容。在 *** 纵的过程中正在取得成绩。如果一个男性的声音响起，用户只会感到被指责和批评。

另外，注音助脚不能太像真人。其实，恐惧谷认为，对于越来越像人的战斗工具，我们的好感度会有上有下，但是对于更像人而不是像人的工具，比如僵尸，我们是很讨厌的。从现实的恐惧之谷，我们可以害怕富有表现力的声音来帮助我们的脚。

图2恐惧谷

不适合在公共场所使用。

语音交互不适合在公共场所使用，尤其是图书馆、办公室等安静的地方。

鉴定结果。在汉堡王的一个视频广告中，卖家首先靠近屏幕说:“好吧，谷歌，什么是whoppers？”。“OKGoogle”是基于Android的手机大战GoogleHome的唤醒词。用户会发现装备已经在下达命令的情况下启动并搜索了帝国堡垒，这是装备不足的识别系统形成的。为此，引入了声纹识别系统，以确保一个安静的成就，声纹考证的可靠性是另一个成就。

图3汉堡王的视频告白

在大众圈也是如此。相比屏幕，公共场所的输入输出对话更容易听到。敏感的金融、医疗和公共利益风险更大。

场景说明

整体来说，语音交互至少需要两个要求:音乐满意，低战，稀疏。少数场景，车和家满足要求，脚机上移动场景减少，一共三年。玛丽·米克尔2016年的声明也指出，好国家语音利用的次要场景是在家里(43%)、在公交车上(30%)和在路上(19%)，东西只占3%。

语音交互很容易开发

事实上，语音交互系统的发展历史并不短。早在1952年，贝蒂实验室就开发了一个系统，可以识别Abebe，Audrey的数量。1962年，IBM制造了第一个机械鞋盒，可以通过语音停止简单的数学教学。

图4IBM鞋盒系统

经过半个多世纪的发展，语音交互仍然达到实用化的水平，遇到的困难也不断发展到利用过程中。

声音语音交互系统有三个典型的模块。自动语音识别(ASR)将声音转换为笔墨，而自然语言处理(NLP)解释笔墨的含义并给出响应。首先，输出疑问通过文本到语音(TTS)转换成声音。

图5典型的语音交互系统模块

近场识别容易问题

第一个简单的问题是得到发音的结果。在语音量的条件下，蔡奇具有更好的语音识别效果。有些公司宣称他们的语音识别率已经达到了95%甚至99%，但前提是音源相隔很远，情况极其平静，说话人的普通话语出格，而不是通常的使用场景。

根据音程，获取用户语音可以分为远场识别和近场识别，后者更容易。

飞机上的语音交互是典型的远场，距离声源较远，语音疑点量较低。另一个圈子，语音采集的交互比较简单，借助触摸屏。用户可以通过面对面的过程开始战斗，停止可疑号码收集，保证用户的语音可以被记录。

近场语音交互以智能音箱为代表，声源较近，但不知道声源的详细位置。在这种情况下，有积极的噪音和混响反射。单靠麦克风无法满足要求，需要麦克风阵列支持。用户可以随机站成一圈。被声音吵醒后，他们需要定位声源的位置，拾取目标背面的声音，加强声音，降低其他区域的噪音。

图6近场识别表示法(出处:雷)

语音识别准确性

在实践中，经常使用的目标是识别单词错误率。微语音战对话研讨会团队的苦工黄教东近日宣布，微语音识别系统的故障率从5.9%进一步降低到5.1%，可与专业速记员媲美。第一个圈子里，有两个圈子，一个是手艺，包括隐藏的马匹和模型，机械训练和各种应对疑惑的方法，另一个圈子是计算资本和训练的宏大数据。

语义识别

如果在语音帮助下停止对话，你会发现你的语义理解走在了坚定的形式识别的套路上，你可以根据用户话中的具体词给出准确的答案。

约翰·席勒提出了“中国房间”的概念。一个不懂中文会说英语的人在一个锁着的房间里。房间里有一本英文小册子，告诉你如何应对回应中的中文问题。用中文写的成绩通过窗户交到房间里，这个人停止寻找，把用中文写的相应答案写在纸上上交。房间里的人可以认为这个人很懂中文，但他对此一无所知。训练机器理解语义类似于那个过程。通过过程练习，我们让机械的反应接近可以理解，却无法像人类一样真正理解文字。

文字是人与人之间交换的东西，在一定层面上适合人的认知系统。怎么才能等机器更了解我们？

目前的成果至少是分词、歧义和已知语音处理。中文单词不像英文单词那样用空分隔，歧义下对AI的要求更低。比如“北京韶江桥”可以通过“北京/韶江桥”和“北京韶江桥”两种方式分红。“鸡没吃过”有很多意思，Siri说“吃饱了再卖”。现在它已经教会了“你吃饱了吗”这个词，它会做什么呢？

多轮对话的结果

我们认为注音助脚很愚蠢，但这是偶然的，因为它违背了人类对话的原则。人类的对话看似简单，但会根据对圆景的疑惑和我的把握来调解对话的内容，也会有高低文之间的计较。而现有的很多产品，对话缺乏衔接，忽略了有语音帮助的高层和低层场景，只能停止单轮对话，看似停止的多轮对话也只是几个单轮对话的组。

“傻”带来的是不自然，任务轻松度的降低。例如，当你请求语音帮助时，“明天的气候如何？”下雨了，然后问:“那后天呢？”当时其实也不是很白发问后天的气候。它只能问“后天的气候如何？”。

以上对话中，萧冰的女老师杨洋一会儿是游戏，一会儿女的是皮影戏，有对话形象。

图7萧冰显示了对话的图像。

语音交互假设标准

由于特殊的白话文发言的情况不坚定，变化很大，VUI的互动想象和GUI是不同的，更详细和繁琐。亚马逊曾经为先驱们提供了一个交互想象的标准。

语音交互的思路至少可以分为几个步骤:在最后建立功能目标；其次，写剧本，也就是用户战系统如何对话；第三步是建立流程，用户的利用方式等。，并按需求定义奇妙技能的结构，包括完成一个功能需要哪些参数，术语上有哪些变化。比如关于一个功能的统一，用户可以问“气候怎么样”或者“里面下雨了吗？”

近场语音交互产品的热启动

近场语音交互的产品存在于火热的初创期，只要积累了必要的数据，就可以更好的推广产品体验。但如何提高销量，积累数据，才是产品启动时需要考虑的成果。如果期望语音交互产品能成为平台，千万量级是根本门槛。如果今年Echo的销量能达到预计的2亿台，基本上有足够的数据和成为平台的预期。海中有些模拟器以节日促销的形式卖出了100万台，比如单个11天猫99元的售价，希望通过流程的方法来停止数据的初期积累。

缺乏持续使用的权力战中心场景

新鲜感过后，很多人会对语音交互产生兴趣，触摸仍然是次要的交互方式。根据CreativeStrategies的数据，97%的人在两周内对Alexa的新功能感兴趣。根据语音实验室的数据，62%的Android用户很少使用语音来帮助他们的脚，iOS用户的这一比例为70%。现在的语音交互，缺少了只要出彩的中枢功能。即使是亚马逊的Echo，它最有用的功能依然是听歌，缺乏中枢的配合是无法替代的。

成就咨询

语音交互会成为支流交互方式吗？

笔者的看法是，就像触控已经取代了鼠标键盘一样，语音交互也不能成为支流。交互的世界本来就是多模态的，语音交互会丰富现有的交互情境，而不会取代其他。如上所述，语音交互并不能处理所有的成果，但可以用在特定的场景中。

多互动语音陪伴的选择没有错。比如语音和触觉的分离可以提高准确率，语音和视觉的分离，真实语音的输入和视觉反应的减少，脚姿的减少等等。

需求能逃脱语音交互的纯真吗？

Echo团队认为语音是最自然的交互方式，所以假设了语音交互。但是语音输入和视觉输出的模式已经被证明是成功的，我们在手机上正在使用的语音交互模式就是这样。新的EchoShow也已经从屏幕上删除，可以显示视觉上的疑虑。有没有需要对抗隧道的语音交互模型？似乎这个谜底曾经很明显。新的成果是，如果Echo缩小到屏幕上，用户会以为是音箱还是板子？

图8屏幕上显示的回声

语音交互的定位

在质量上，语音交互授权方可以通过过程语音完成使命。通过流程语音能做到的，触控能做到的，Siri能做到的，Echo能做到的，没做过的大家都做不到。语音交互能完成什么独家使命来显示它的成本？

和崔

谢丽尔·普拉茨，一个语音幻想家，正在她的媒介上重复一个成就。VUI是对话式用户界面吗？

在语音交互的世界里，它是基于零时的使命，形式很简单“发号施令——完成使命”，但不是自然对话。我们需要考虑如何发号施令，对话的间隔太近了。如果要实现崔早晨的目标，语音交互必须更加智能和流畅，要通过真实对话的过程来完成使命，就像我们与人类对话时一样。

隐性成就

语音助脚要想更好用，更智能，就要不断收集用户的疑惑。是因为我们可以用语音帮助改变我的反应吗？如果注音助足的目标是贸易，是否可以怀疑它，提供信息，让它更了解我的爱好？

另一个圈子，语音能帮你的脚安静吗？进程唤醒词唤醒的语音交互产品会连接待机，从情境中获取声音，可以 *** 控那种机器。在一则新闻中，Echo被破解，变成了24小时监听设备。通过连接方式，证明了在德国被停止销售的女生语音玩具“我的朋友Cayla”的蓝牙连接是不安分的，可以通过第三圈获得女生与玩具对话的声音。

图9女孩的声音玩具我的朋友凯拉

语音交互领域的测试方法

一般产品的研究方法是通用的，可用性测试、访谈等方法仍然适合研究语音交互系统。在测试VUI的时候，可以特别注意一些地方，比如用户的反应，胜率，对可能失利的压制等等。有一些具体的指标可以用来评测，比如速度准确度、用户支出的认知勤奋度、清晰度和可懂度、系统友好度和音量等。

以上介绍了语音交互界一个有趣的测试方法:Woz法。因为语音交互系统成本低，就在系统开放之前，Woz(绿野仙踪)的这个型式测试结果很低。研讨会工作人员扮演向导的角色，由一般研讨会工作人员协助。在用户 *** 纵它之后，向导在黑暗中手动播放响应。

图10汽车中的Woz测试(起源:设计语音用户界面)

语音交互还是要进行的，成为一个熟练的人需要时间。但它的呈现意味着我们可以用更多的方法来 *** 控设备和举报疑点，我们离幻想的交互世界又进了一步。以上语音互动简单总结，发音有疏漏和错误。告别和交换更正。

参考材料:

凯茜·珀尔。设计语音用户界面。奥莱利媒体，2016

克利福德纳斯，斯科特勇敢。为演讲而连线。麻省理工学院出版社

谢丽尔·普拉茨。缩小的裂缝:语音用户界面和对话用户界面。中等:微软设计

亚马逊Alexa:语音设计指南。亚马孙

极限，阅读智能语音前端处置的关键成果，Leifeng.com。

监制:网易产品开发部用户研究员王梅子，目前正在与智能硬件用户进行讨论。喜欢自己不了解的作品，在用户讨论的道路(树)上不断成长。

本文作者@吴慧心获@有盐咸面(微疑公众号:有盐咸面)授权发布，已承诺停止转载。

标题来自unsplash，基于CC0和谈。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/777575.html

语音交互科普：AI能和你语音聊天吗？

发表评论

评论列表（0条）