语言交互场景探索（一）：关于语言交互效率的探讨_服务器

语言交互场景探索（一）：关于语言交互效率的探讨

言语互动的服从度什么时候越来越低，什么时候越来越低？

“自然语言交互”一词似乎将在未来一年长期占据科技新闻的头条，各大巨头都渴望抓住这个据说是下一个互联网进口的重大机遇。

然而，就像历史上的每一次交互变革一样，要找出下一代人机交互方式，只有很短的路要走。希望通过过程中的系列文章，能够帮助理清思路，同时也能为大家提供一些思路。同时，我希望我能真正面对那个系列…

定义

与常见的“市井情景”中的“语音互动”不同，本文使用的是“言语互动”，大概就是所谓的“会话式互动(CUI)”。因此，本文不仅讨论了语音交互，还讨论了笔墨交互。

这篇文章你关心什么？

在浏览之前的内容之前，我们先问两个等级:

言语互动在什么情况下是从属的？

什么情况下言语互动服从度较低？

错误，在本文的上下文中，我们只会暂时协商和服从对方。

举个例子。

我想以我们做过的一个功能——日程提醒(实际上很多产品也是这么做的)为例来打开上面的解释。如果我们在正常的对话中，要求我们的助手给我们一个提示，我们可能会说:

"下周，战书将提示我三面飞行."

“过年的10张脸提醒我回家吃饭”

……

书中列出了毕丽的一些自然言语互动问题。因为我所做的是在PC后台工作的场景，所以键盘输入的笔墨交互比传统的基于GUI的鼠标键盘交互要好。接下来，让我们看一个选择时间的典型GUI交互方法:

每个人都可以非常ss="superseo">ss="superseo">简单地发明它。第一种混墨交互的优点是整个交互体验非常发散流畅，用户只需要通过进程键盘读出要设置的提示内容。第二种交互，用户要通过流程鼠标键盘来回切换才能完成所有动作(时间由鼠标选择，事件内容要通过流程键盘输入)，十来天不流畅。

不知道大家的 *** 控习俗如何。至于我的方式，我讨厌在鼠标和键盘之间来回切换，也不太喜欢 *** 纵鼠标。

试试看。你在一只脚托着下巴偷懒一天，你在一只脚 *** 纵鼠标。也许你正一只脚摆着帅气的姿势，另一只脚 *** 纵着鼠标。这时候，你就被迫换成两脚，停止在键盘上打字。那种姿势切换会给用户带来很大的体验成本。

鼠标键盘还原是PC时代特有的交互方式。虽然我们现在也讲所谓的“多模态交互”，但是鼠标键盘缩减的组合在很多场景下是最差的解决方案。

服从

互动的结果之后，我们再回到文章的中间:服从。

GUI有一个很大的成就，就是在处理太多选项的时候，无论是表现服从还是 *** 纵服从，都是不完美的，时间选择就是一个典型的例子。

为什么？由于“日期”有无限多的选项，如果你提供来年的提示功能，那么你需要读365-366天的方法。

而“小时”的选项往往有长有短。如果你的函数精确到分钟，那么你需要读取60*60*24=1440个选项。当然，普通的GUI不会选择间接显示一些选项，这样太“蠢”了。

常见的做法(如上图Win10所示)是以月为单位列出日期，然后提供翻页(翻月)功能。至于时间的选择，通常的做法可以是降低粗糙度(如上图Win10所示，粗糙度以半小时为单位降低了29倍)，大概就是通过转动滚轮来删除多余的分钟。

那些做法的质量是一样的，就是只显示部门选项，隐藏其他选项，然后提供一个切换选项机。当然，在实践中有一些渐进的方法来选择服从，例如最常见的“热点”选项:

但总体来说，GUI的选择度很低，因为用户真正选择的选项往往不会显示在“后页”，用户体验很差:我明明知道我要选什么，你却要让我觉得这么激动才能选择我要选的。

其他大学的所有GUI都利用了阈值，这可能预先假定了用户的一些先验知识。比如(如上图)要求用户知道Jiaodo在哪个省(那些要先选省再选市的GUI)，等等。你知道，部门用户没有那些先验知识。

改进的GUI？

现在，我们要问一个成就。以上GUI的实现是否可以通过流程改进的思路来处理？在那里，我仅以《小时》的选读为例来说明:

(请原谅我用表格画UI……...)

上图中的第一种表现方式，我们揭示了一天中的每一分钟，这样做的好处是只需要一次面攻就可以完成选择。但是，肯定是可圈可点的，就是太低了，表现服从和立场服从。在第二种表现方法中，我们对其进行了改进，将“时间”和“分钟”分开选择，使 *** 纵数减少到2，但表现形式却有很大进步。

在上图的第三种显化法中，我们进一步停止了“点”中十个位置的分离，进一步促进了显化服从，但 *** 纵次数下降到了3。虽然三次的 *** 作次数完全可以承受，但是用键盘输入，像“8:00”这样的输入至少要 *** 作四次才能完成。

事实上，第三个GUI的质量曾经比d出一个真正的键盘要好得多，在那里我们将发明一种关于那个例子的方法。面对面的 *** 作最终将依赖于键盘 *** 作。

但是，改进了，就能对抗笔墨(键盘)交互的是GUI吗？意见不合。

鼠标交互的结果

鼠标交互键盘交互最大的缺点是鼠标交互不是间接的。

为什么不是间接的？每个人都可以尝试从屏幕左半部分的一个指定面快速移动到屏幕左半部分的一个指定面(屏幕四角除外)，你会发现你几乎一步都到不了。你必须每天在到达谁的表面之前进行微调，并且首先你将能够使鼠标刻度下降到谁的表面。

如果屏幕上的鼠标正在被人 *** 作，那么它被进程脚中的鼠标硬件停止，而那个进程就是鼠标硬件通过进程传感器扫描鼠标下方的空间，测量用户在那个空间移动的间隔，然后通过一个进程系数转换成鼠标在屏幕上移动的间隔(像素值)。这段旅程非常间接。

我教过我爷爷怎么用鼠标，我也忘不了他在脚边逐渐移动鼠标时的小心翼翼，时不时的观察屏幕上鼠标的移动，让他每边都很难移动。因此，即使鼠标 *** 作次数(实际上上面忽略了“移动鼠标”的 *** 作)与键盘 *** 作次数相当，键盘输入也有很强的交互劣势。结果键盘就是“所见即所得”，敲出来的就是。

选择比你想象的要多。

接下来，GUI会遇到一个越来越广的成就，那就是用户的需求和供给比你预想的更多。就像本文开头给出的两个例子“下周一”和“年中春节”，在GUI下找不到好的解决方案。

关于前者，用户首先要定位明天在日历中的位置以及周一在日历中对应的栏目在哪里，然后在困难的一天找出下周一在哪里。至于后者，就更痛苦了。用户需要先查看“今年仲春的日期是几号”，然后再回来选择。当然，你可以告诉我们，我们可以列出“下周X”和“XX节”的快捷按钮，但你能列出几个呢？

在那里，我们会看到，面对用户的“表达自由”，GUI是非常强大的。当然，言语互动也会遇到同样的成就，但那种成就会导致“言语表达自由”的成就。比如用户会说“下周一”、“下周一”、“下周一”等等，但那一个部门的成绩暂时不在本文讨论之列。

我确实犯了一个错误...

那为什么呢？于是乎，越来越差的GUI策略，可以让时间选择服从的 *** 控更低更舒服。只是作为一个“创客”，我让大家陷入了一个逻辑陷阱，而忽略了更好想法的存在。

而本文主要关注的是(非触摸)PC的整个办公场景。在实践中，移动终端(或触屏PC)可以用触摸交互代替鼠标交互来阻止上述鼠标交互取交互姿势切换的结果。而且借字存字的结果就是得到错别字，字速慢等等...

但是，GUI赢得了笔-墨(杂项键盘)交互，所以它不会有语音交互...假设语音识别率接近100%，我可以借用我见过的任何GUI的时间来输入，并且比语音输入更服从它。

下一年级

说了言语互动的好处，崔的服从性什么时候低于桂？请看一张图:

(请注意不是表白，是百度然后随机的)

如果你只要崔出来就带着桂去餐厅，你就输了，因为你只能通过流程服务员一天一天的告诉你那家餐厅的菜名。当然，举报服从是一种成绩。还有一个成果就是服务人员汇报完当前情况后留下了什么工具，剩下的就看用户的形象力了。所以报前面很简单，用户曾经记得前面是什么。

因此，你会发现一切。城市里有“请按#从头听电话”的选项。连普通客服用户都记不住4、5个选项，更别说好菜单了。类似的例子还有很多，比如某宝的商品详情页:

(对不起，那是..应该是告白...)

如果上图中所有的疑惑都只通过进程语音展现给用户，那么依从性会比GUI低很多，人的浏览速度也会不断降低。在那里，我们可以看到，真正的互动大致可以分为两个部门:显示和丢失。

在本文的前半部分，我们主要讨论了崔是如何以比桂更低的服从度进入这个圈子的，但在那两个例子中，我们会发现，桂在大多数部门都比崔要听话得多。

作为第一家推出智能音响的公司，亚马逊很早就认识到了这一成就，并在最后的产品推广中推出了产品“EchoShow”。产品是原来的智能声音“回声”被一个显示屏减少了。必要时用显示屏显示疑问，摒弃原有的杂话互动形式:

开头的结尾

所以我们得到了一个开始的结论:

在图形世界中显示服从。

言语互动、输入、服从和从属。

臣服不是必须的，对桂来说无疑是大获全胜。比如我们去某家店买衣服，说“5块S码”，说四个字就好了。如果我们停止使用GUI输入，我们可能需要面对面地点击“S代码”，然后我们可以点击“+”按钮四次。输入服从性比语音交互差。

没有这样开始的结论。

然而，让我们看看上面的一个反例:

我们很容易发现，如果我要买“HB+2H+2B+3B+4B+5B+6B+8B+10B+12”，我要花很长时间才能写完那点笔墨。但是，如果你使用GUI，你只需要安静地点击。当然你可以说，我们可以用“先买谁”来指代选择谁，但是如果极少数的选择在各个选项中心呢？也许所有选项的名字都很热？那你有主意了。因此，我们得出结论，不存在这样的开端:

在图形世界中显示服从。

口头互动是坚定、简短的投入、服从和服从

在图形世界里，是坚定，少投入，少服从。

桂的困境

虽然我接下来会谈到GUI的困境，但这确实是所有“单模”交互的困境。从上面的解释可以得出结论，GUI中的像素同时承担着两项任务:显示和战斗。然而，在很多情况下，GUI中的呈现是过度的，呈现的唯一目标是输入。由于没有显示选项，用户无法输入它们。让我们看两个例子:

上图右边的展示是必须的，因为你不展示给买家看，你就不知道你要选择什么套餐；但是，左边显示的长度是必要的，因为大家都知道一年有几个月，每个月有几天(连这个都不知道的用户很久没想过了...)，但是有必要在GUI中显示出来。这样一来，GUI中很多时候会出现很多“多余”的疑惑。

在这一点上，通过分离上面提到的结论，我们可以推导出一个合适的场景来停止混合语音的交互:即，适当使用具有已知和稳定选项的混合语音交互。

场景有很多种。比如你在编译完文章后返回上一级页面，页面会d出“文章已被预约，你确定要退出吗？”提醒一下，在那种情况下，用户会知道只需要“是”和“是”，所以没有必要考虑GUI显示。

有意义的结论。

所以我们得到了另一个结论:

在图形世界里，少显示文字，服从lower。

口头互动是坚定、简短的投入、服从和服从