语音交互的历史进程是怎样的_技术

百度刚刚发布了2019年全年及第四季度财报，总营收1074亿人民币、单季营收289亿人民币，除了营收上继续保持双向增长，人工智能新业务也展露出一些新气象，并首次对外披露了这样一组数据：

小度品牌第一方硬件的语音交互次数达到23亿次（智能音箱、车载支架等），是去年同期的7倍多。

其实早在2018年第三季度财报时，百度就曾对外公开DuerOS（小度助手）的相关数据，不过彼时的数据主体还是DuerOS生态，TCL、vivo、索尼等合作伙伴的设备占了不小的比重。此时再看2019年12月的最新数据，小度语音助手的交互次数已经超过50亿次，比去年同期增长了3倍多。

值得一提的是，百度特意在财报中单独公布了以小度智能音箱为主的第一方交互数据，或许可以从中读出这样两个信号：

其一，小度智能音箱的市场销量在公司层已经得到了的认可；

其二，智能音箱背后的语音交互或将上升到了公司整体战略。

对于第一个命题，诸如IDC、Canalys等市场研究机构已经在季度销量报告中给出了答案。第二个命题似乎也不是什么新鲜话题，几年前就出现了对语音交互价值的讨论，但这一次似乎又有所不同。在“智能音箱大战”的洪荒之力下，智能音箱正在以千万级的季度出货量走进一线城市到偏远乡镇的家庭，“语音交互”不再是什么陌生词汇。

也就是说，几年前讨论语音交互还属于雾里看花，所有的观点都建立在某种假想上，今天却早已是一个现实的商业话题。

语音交互的远景和近况

关乎语音交互的想象似乎从未停止，科幻电影《Her》中对语音交互的设定，大抵就是多数人认可的远景：

1、语音助手可以个性化定制，选择自己喜欢的声音和性格;2、在数据处理上几乎是万能的，可以得到任何想要的结果;3、语音助手有自己的情感和思维方式，并可以被赋予形体。

在这样的设定中，人工智能脱去了科技冰冷的面纱，有着人性化和活色生香的情绪，甚至可以让人机对话变成情人间的絮语。和许多黑科技的诞生一样，有了美好远景的语音交互成了几代“程序员”的奋斗方向。

特别是深度学习技术在2010年引入到语音识别领域后，苹果Siri、Google Now、百度语音、微软Cortana等“语音助手”类产品应运而生，有问有答的人机对话逐渐成为现实，哪怕机器还处于被动接受人类输入大量数据阶段，不能深层次理解人的意思。

智能音箱时代的语音开始进入到自然交互阶段，不仅有问有答，人工智能还可以根据上下文逻辑和环境信息，作出个性化的决策或推荐。特别是百度等已经在智能音箱中加入了多轮连续对话能力，人们和智能音箱的对话正越来越自然。

可即便如此，现阶段的语音交互和《Her》中的“萨曼莎”，还有着286电脑和iPhone一样的差距。但站在商业的视角上，看到的却是乐观的商业前景，而非感叹技术上存在的鸿沟，原因同样有二：

一是现阶段的语音交互业已成为主流的人机交互方式，语音识别的正确率在97%以上，可以满足大多数场景下的信息输入，无异于十年前的触摸屏。

二是语音交互用户体验的优劣建立在已有的用户数据上，很少有人会对智能手机产生依恋，对语音交互可能有不一样的情感，商业基础无疑更加稳健。

那么，当语音交互渐渐流行的时候，势必会在商业上产生颠覆性的变化。

下一个BAT的“通关密码”

事实似乎也是如此，互联网的每一次繁荣都与人机交互方式的迭代不无关系。

比如PC时代的商业格局，几乎是浏览器和搜索引擎主导的。

彼时用户连接互联网的行为被局限在键盘和鼠标上，稍微极客一些的用户可以通过浏览器输入网址连接信息，大多数用户是在搜索框中输入关键词，然后点击鼠标或回车键了解世界。在这样的人机交互方式和用户习惯下，信息的整合与输出是“中心化”的，谁能掌握浏览器和搜索入口，谁就拥有信息分发的话语权，

智能手机的出现在某种程度上淘汰了鼠标，进一步催生了APP的产品形态，直接导致搜索和浏览器的中心地位被削弱。

与之对应的商业格局也迅速分化。早期的焦点是围绕“应用中心”的争夺，谁拿到了APP的分发入口，谁就能抢到最大的一块蛋糕，以至于左右一些APP的存亡。后期进入到超级APP林立的时代，也就是我们现在熟悉的场景，微信、淘宝、百度、抖音等APP占据了大量的用户时间，“时间”取代“入口”成为互联网体系的“硬通货”。

沿循这样的逻辑，语音交互的流行可能让信息的分发方式重新拐向中心化，商业格局也将走向新的转折点。

一个直接的例子，当你给智能音箱发出指令播放某首音乐时，或许并不关心内容来自于哪家音乐平台，被削弱的恰恰是APP的存在感。语音交互主导的信息分发可能比PC时代更加“大一统”，当大多数需求只要说句话就能解决时，用户习惯中不会再有APP和浏览器的概念，也必将催生出新的“统治者”。

百度在财报中着重提及小度智能音箱语音交互次数的谜题，也就不难解开：

短期内的小度智能音箱为百度的内容体系带来了新的落地载体，比如有屏智能音箱已经是爱奇艺重要的流量渠道之一，同时智能音箱与智能家居设备的无缝连接，也将百度的能力边界从互联网内容延伸到了IoT领域;

长远价值则在于语音交互重构的新规则，中心化的信息分发恰恰是百度最擅长的打法。正如触摸屏引发的移动互联网浪潮，语音交互大概率将催生出新的生态，小度智能音箱的月交互次数和背后的用户习惯，正是百度通往下一个时代的“通关密码”。

简而言之，下一个BAT出现的前提正是掌握语音交互的控制权。

新赛道开启的“标志符号”

不过百度并非是唯一对语音交互抱有野心的玩家。

2014年与WP8.1一同发布的Cortana，被赋予了一个美丽的中文名字“微软小娜”，甚至与Bing、Azure一道成为微软“云为先，移动为先”战略的核心产品;2016年小娜的语音识别率正式超越人类，并且可以处理复杂的口语指令;2018年为了让小娜的表达听起来更人性化，微软还收购了一家名为“语义机器”的人工智能初创公司……

但在2020年微软却选择战略性收缩小娜业务，小娜移动版停止服务，并在微软桌面中被移除，最终被集成到M365办公类型应用中。

对于小娜的失败，外界出现了各种各样的解读，比如微软缺少移动终端的优势，导致小娜缺少用户行为的数据滋养;再比如微软自身的固步自封，小娜缺少足够的技能和应用场景，被用户抛弃可以说是必然的宿命。

这些解读不无道理，可回到语音交互本身而言，微软小娜的失利不可谓不是一种教训：要么做出足够爆款的产品，让语音交互的落地有一个标志性的符号，进而在产品上持续迭代，品类上不断拓宽;要么没什么标志性的产品出现，语音交互以静默的方式在垂直行业中渗透，然后探路者在某个时间点被后来者超越。

微软不幸成了后者，亚马逊正努力成为前者。

在手机、PC和 *** 作系统上近乎空白的亚马逊，选择了“Echo+Alexa”模式。其中Echo在某种程度上扮演了“标志性符号”的角色，以智能音箱的产品形式摆脱了用户固有的习惯，逐渐接受了用语音唤醒设备的方式;Alexa被不少人定义为“数字助理”，确切的说应该是语音交互在行业中加速渗透的基础设施，比如Alexa已经被内置于智能汽车、智能电视等硬件产品，并且拥有1.5万种以上的技能。

国内的百度似乎有着相同的打算，同样是一边以智能音箱来培养用户习惯，一边以小度助手打造语音交互的应用场景。

按照以往的经验，当一个行业开始出现“领头羊”的时候，整个市场就会在变量的影响下开始高速扩张。智能音箱大抵就是语音交互历史进程中的“标志符号”，在语音交互上领跑市场的亚马逊、百度等互联网玩家，已然是新赛道中的领头羊。

写在最后

除了百度在财报中披露的语音交互数据，或许还有另外一个视角：

2010年中国网民规模为4.57亿，到了2019年这个数字已经增长为8.54亿，智能手机的普及已然让近4亿人接入了互联网世界。

但不可否认的是，三线以下城市的不少网民还不能熟练的使用键鼠，在手机上的 *** 作也局限于语音聊天、刷短视频等基础应用。几百块的智能音箱正在创造新的联网方式，哪怕是被输入法阻隔在互联网大门外的用户，只要“说句话”就能搜索想要的信息。

一切美妙的化学反应正在发生中，一个新的商业赛道正在被缓缓撬开，留待百度们的使命在于：如何为语音交互延伸出更多的技能，以及进一步优化方言的语音交互，在技术上彻底踏平互联网的门槛。

责任编辑：ct

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2650549.html