打造优秀语音交互体验的设计建议_服务器

打造优秀语音交互体验的设计建议

每次城市都有自己的战争象征。至于虚师的去道，给予灵魂积的肉体，始于终是稳定的。

AI给人机交互带来基础变革

人工智能的核心人才

人机交互的发展是“推进工艺”，走“载体的创新”。瓜代的螺旋式提升，在促使人们获得怀疑，服从，提升，资本不断低。

围棋前后被李世石和荆轲击败，百度公布主动驾驶系统“阿波罗”...那个时候，AI引发的工艺进步才刚刚开始。基于大量纯数据的深度学习给野智带来了巨大的进步，而这种进步的次要表现在三个维度上。

认知能力——基于对用户行为的绘制，将人机交互从“一背关系”带入“一背关系”

感知能力——从触摸输入到以语音输入和图像识别为中心的自然交互。

自然语音输出能力——带来新的“语音”想象素材。

至于语音体验，这是一个新的假设，有远见的人应该去道。它的假设是什么？语音想象有框架吗？有哪些想法？我们将与您分享上述文章。

想象一下这场战斗

1。从“有间隙”到“无间隙”

当我们想象App世界的时候，交互设计师会倚着用户在立体像素世界里可以做出的所有 *** 控，一个一个地想象合适的用户反应。但是用户关于语音交互的输入是有差距的，用户能做的输入几乎超出了你能做的范围。从“看不见”的假设到“看不见”的假设，视觉假设标准将在语音假设的过程中充分发挥作用。

2。从“远场”相互作用到“多区间空相互作用”

语音交互可以分为远场交互(例如Secret/siri)、场交互(车载)和近场交互(智能音箱)。

多间隔场景具有以下维度:

(1)场景特征

在非远场交互的场景下，用户可以从事其他任务，而不是专注于其他任务，这给如何以用户最低的成本获得当前系统的形式带来了挑战。“我唤醒设备了吗？”“我能学会吗？”每个节点都需要是多维的。

(2)输入法

常用的输入方法包括真实的身体 *** 作(按钮/旋钮等。)，触摸，声音，动作。在远场交互中，真实的体感是首选，而在近场交互中，语音成为首选。伴随着各类智能音箱，大概是IphoneX等深度相机使用的提升，中近场景的动作输入会逐渐成为主要的输入方式之一。

想象一下这个倡议

1。将“使用场景”与“语音交互框架”结合起来[S2/]

语音交互导致人机交互更自然的目标，人机交互远远超越“人人交互”。如何理解语音交互框架，可以从人人交互来探讨。

现在，想起你让别人帮你拿火之杯，你拿的时候个人互动是什么样子的？

首先，你应该叫他的名字。如果他听到了，他会回答你“为什么？”或者给你一个眼神。那时候你知道他在听你说话，你可以一直说——“拿着火焰杯。”他可以问你火焰杯在哪里。当他来拿火焰杯的时候，你会看到他在动。演讲的交互框架是提取演讲的交互部分，停止总结:

如上图所示，语音的交互框架由以下四个部分组成，每个部分都有对用户的响应:

唤醒:用户需要得到一个“能不能唤醒语音”的响应。

输入:用户是否有获取“传言”的装备(相当于装载)的需求？

知道:用户是否得到“你是在帮我工作吗？”“需要的。

回复/动作:用户对检验任务能否完成有需求。

语音交互框架对语音交互过程进行了注解，相当于触摸屏设备定义中的“打脸屏幕”和“一指摇动”。然而，仅仅理解交互框架是不够的。比框架更重要的是语音交互场景。在不同的场景下，对以上四个板块“唤醒、输入、理解、回复/动作”有不同的想象方式。

比如语音交互的第二阶段——输入，需要配合“波形上下”和“语音响度下”给用户一个听的反应，波形在不同场景下要采取不同的试探性策略:

车载场景:驾驶时，用户的视觉注意力被路况占据。这时候，在一个圈子里，需要引入“叮”的语音响应，而在另一个圈子里，则应该采用更强的视觉波形，以确保一目了然。

语音音箱:虽然语音音箱的场景不像开车的场景那样被占用，但是它有屏幕。当时一般采用光效处理反应的结果，感觉强烈而有吸引力。

“无形的”声音能量“附着”在各种设备上，场景也是一样的。我们在思考的时候，要牢记“唤醒-输入-理解-回复/动作”的语音交互框架。我们要关注用户的利用，视觉/听觉注意力的占有，只在没有需要的时候用声音回应。

2。“醒来”情景

唤醒是语音交互的第一步。据传某国产品牌新公布的AI音箱选了十几个唤醒词，一开始只用了“小爱同学”。rokid的唤醒词“若琪”也是以一个不小心的假设结束的。这充分说明了唤醒观念的重要性。

唤醒方式可以由任务触发，比如面授、按压、动作、声音、情绪。目前支流中有三种唤醒方式——实键、实键、语音唤醒。每种唤醒方式都有自己的特点，适合不同的场景。让我们逐一解释:

(1)真实按钮

优点是可以提供触觉反应。有两种使用场景:

当用户的视觉交流被占用时。

当远场是交互式的且配有屏幕时，或者屏幕处于刻录模式时，例如，当屏幕处于关闭模式时，按Homeless即可在整个过程中唤醒。

(2)真实模拟按钮

唤醒法有两种 *** 纵法——面对面战斗和少压。两种方式在质量上有三点区别:走内距离， *** 控成本少，对语音输入自定义略有怀疑，让少按更符合用户自定义。

面对面:内侧部分屏幕间距接近，波形响应可见，更能确认设备是否支持声音，成本较小。大多数城市的远场交互都可以利用。同时汽车场景特别适合，开车的时候尽量让用户少按输入语音几乎是一场灾难。

按少:离麦克风的距离远，离具体用力远，可以带来更好的支撑效果。可以作为一种有益的唤醒方法。

(3)语音唤醒

在一脚被占，场景接近音程的情况下，语音唤醒是最好的方式。我们在想象语音唤醒要注意以下三个圈子:唤醒词的形象想象，唤醒后的声音反应，避免误触。

(1)酒醉话的形象。

唤醒词的想法是机械道德的一部分。在和平相处的社交中，优雅难懂的名字往往会给人留下美好的印象。优雅的话语给人一种不喜欢或者排斥的感觉，没有快感。就像“静静”给人的感觉是“安静而细腻”。《唐唐》给人“甘美”的感觉。

早期的野智天赋有限，偶尔会给出不完美的答案。萌萌一个亲战的名字可以让用户更大方。

同时，唤醒词的形象在声音特征上应该是不同的，听觉感受的长短往往是敏感的。试想一下，如果一个可爱的女孩声音很粗，一个强壮的男人声音很静。你觉得很难受吗？我们来定义一下唤醒词的感知意义，也就是语音分解练习时婚姻的意义。

(2)利用反应音。

唤醒语音一般使用近场交互场景，此时子用户可以通过过程视觉轻松确认是否可以唤醒设备，需要给出语音响应——比如“叮”或者“我在忙事情”等等。

(3)接触不正确。

在平时的交流中，我们每天都会说很多重复的话，比如“你”、“呃”哦”等等。当我们醒来时，我们试图避免这些话。

3。对话体验的想象

唤醒对话是语音体验想象的中心。怎样才能做出好的想象体验？最后，我们需要了解语音交互产品对话的基本特征，包括:轮流对话的方法、合作对话、关注词语的含义和语境、线索引导、对话重构。

在准备详细对话时，向大家推荐通用的Grice表达原则，可以对促进语音对话的结果有用。这些原则包括以下四个方面:

表达量:陈说了有用的话。

怀疑率:不多，只是适量的口头怀疑。

相关性:陈说他怀疑这个话题是相关的。

惯用:长篇大论，弯曲主题，停止含糊难懂的表达。

根据不同的使用场景来写对话也是大相径庭的，主要从以下两个维度:

(1)区分“使命假设”，取“八卦假设”

对话的思路主要分为两种场景:任务对话和聊天对话。

①任务对话

比如理财顾问、医生、买家的帮助，用户使用对话类型的产品尽快得到答案，而不是在人背后“戏弄”siri。该类产品应符合以下规则:

指导用户如何输入:语音有无形的鸿沟，没必要让用户什么都不懂就出门。用户可以接受各种不可预测的句子。为了不陷入麻烦，应该指导用户如何进入或自动打开对话。

设置一个缺口:没必要试着做一个健谈的“机器人”。当把你的产品导入用户的主要任务无法理解或者拿你的产品没完没了的时候，就没必要拆智慧了。给用户一个选项来提醒用户他可以使用的表达式。

②聊天会话

如略硬的冰、秘等。用户使用那种对话式产品的目的是“娱乐”。服从是第一需求。如何让谈话变得有趣，停止热门领域是一个新的想法:

单回也是一样，自动遐想:停止对话是“一拍即合”的问题。同样的天赋让对话变得有趣。用户打开你的产品，根据气候、时间等因素自动对话。比如用户半夜打开你的产品，设置问候对话，会让你的产品富有人文关怀。

迎合用户感受:当用户表达悲伤或快乐等感受时，用户会等待你的产品产生共情。用图片或者对话来连接用户的感受，会让对话充满感情，降低产品的粘性。

鼓励输入:聊天对话产品的体验取决于用户数据的收集。你的产品积累的对话数据越多，用户通过深入学习得到的满意回复就越多。我们正计划通过鼓励过程奖励机制化战争可视化来引导用户丰富您的数据库。

(2)“听觉图像”的经验假设[S2/]

通过“色彩、料量、造型、布局、动态效果、字体”的过程来塑造视觉形象，用视觉形象来体现产品体量和品牌理念，是GUI设计师要做的事情之一。野智赋予了机械拟人声音输出的能力，带来了声音想象素材。其他声音给用户带来的感受感染没有区别。抑扬顿挫的声音给人“稳重健康”的感觉，而尾音背面的声音给人“愉快受尊重”的感觉。

如何用“音色、节拍、音调、响度”这些语音想象要素去想象一个合适的听觉形象？

以上，我把项目经验分离出来，讨论了一些方法，供大家分享一些过程。

①从“先想象，后开发”到“先开发，后想象”，是一个新的过程。

语音是看不见的。想象者有“语音学的PS”，所以在想象语音学之前需要有一个“语音学的基本图像”。想象者基于语音学的基本图像停止想象。在思考百度feed从一开始阅读新闻的经验时，我们的祖先只是定义了不同新闻的情感特征，基于新闻感受收集等价的“语料”数据，通过对流程的深入研究，提取每一类语料数据的声音特征，形成一个“根像”，正在对根像的音调、速度、节拍进行微调，使之停止。

上述过程可以概括为“听觉形象”的试探性过程:“定义——选择——练习——中介”

定义:根据内容/产品体量/品牌视觉，定义一个产品的“听觉形象”。八卦情怀要“戏谑”，历史听觉反应要有沧桑感。

Select:从语音数据库中选择一个定义了听觉图像的语音片段。例如，如果要发生的听觉形象是“沧桑”，你可以选择一些单田芳老师的声音片段。

练习:给技术人员大量的语音片段，停止语音分解练习。

微调:通过过程调整“音调、速度和节拍”，让用户感觉更接近之前定义的“听觉形象”。

(2)“听觉形象”和“品牌感受”的区别

当视觉视觉停止时，设计师要通过过程“色彩、形态”等想象元素来支撑品牌感受。对于大规模的公司来说，他们的每一个产品都将被要求遵守不同的假想标准。在“听觉形象”想象期，当你的产品需要语音交互时，确保产品的“听觉形象”带着品牌的感受去链接差异，这样会强化品牌对用户的印象。

③“听觉形象”与“用户场景”的分歧:

现在，还记得机场里的声音吗，“尊敬的游客乘坐T343航班飞往北京……”。语音图像给用户的感觉是“被服务，被尊重”，与用户在机场的场景不同。但在医院里，至少在中国，接受医疗资本的患者是极少数，患者接受医生更像是“乞讨”而不是“服务”。使用过于“服务化”的语音形象反而会给用户带来强烈的良好健康印象。

④持“听觉形象”，取“内容”发散。

“内容”本身是没有图像属性的，就像一个二次元的信息，如果用暴力男的死念出来，必然会很有攻击性。因此，在停止内容消费假设时，需要充分考虑语音所传达的内容，并与“听觉形象”相匹配，从而停止反击的感觉。但是我们在想象东西方产品的时候，并不一定要频繁的改变语音形象，这样会把用户的注意力分开，让他们服从落地。

4。 *** 纵视觉

语音交互最大的缺点就是变得更加音乐化，可以大大降低用户的学习成本。但是语音输出是线性的，不能同时输出很多内容。这就是语音最大的优势。

2015年，语音管家正在构思的时候，有人提出要做一个卖语音的功能。那真的很违背语音现场。当语音输出到第十讲时，用户曾经记得第一讲是什么。因此，当用户倡导需求对等的信息交互使命时，会通过流程推送引导用户查看视觉信息。

我们在思考的时候，会丰富视觉 *** 控和听觉感知的互补性。如果听觉图像耗时较长，就没有必要使用语音输出大量信息，尤其是需要用户图像的时候。

AI时期的转化稳定性

AI带来机械的认知能力来对抗感知能力的提升，给人机交互带来的改变才是根本。传统的人机“输入-响应”循环将逐渐过渡到“保护-选择”循环。人机交互也将从单背附着过渡到单背练习。那种改变将重写“理念、方法、过程和标准”。

然而，在每个时期，这座城市都有自己的标志和奇迹。至于虚师的去道，给予灵魂积的肉体，始于终是稳定的。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/778631.html

打造优秀语音交互体验的设计建议

发表评论

评论列表（0条）