语言AI在人工智能领域是怎样的地位_技术

11月26日，由搜狐科技主办的“2019搜狐科技AI峰会”在北京举行，为广大读者解读AI前沿新技术，探索行业新趋势。

搜狗公司CEO王小川在会上展示了新发布的AI录音笔。他预测，AI时代个人硬件趋势是变得更IO，更便捷，因此音响不会成为未来的各类场景的入口，反而智能眼镜会成为取代智能音箱成为未来趋势。

他认为，关于互联网和人工智能的未来，将从个人互联网演变成为产业互联网，最终形态是IoT，商业逻辑也或从赋能于人变成商业智能再变成机器人。具体来说，语言AI的发展方向是自然交互+知识计算。

他谈到，有了机器智能之后，已经从人适应机器，变成了机器适应人。AI带来的语音、图像技术的突破，也会让人们的生活更加便捷。

同时，他也向大家展示了语音合成技术和人工智能合成主播，这是全球首个出现在知识付费产品中的语音合成产品，通过将转述师的声音与演讲人的声音合成，把简单的语音播报变成了一种语音表演。而合成主播则取代了原来新闻主播的播报工作，让主播得到解放，能够亲到现场进行采访，并且省去了妆发、灯光、摄影等繁杂工作。

以下为王小川演讲全文：

尊敬的各位嘉宾、各位朋友，很荣幸，也很有压力在邬院士之后做我的演讲。我的主题分为两个部分：语言AI，以及2020+，因为2030年太远了，也许这件事情2030年就干完了，所以就定在2020年。

在此之前搜狐科技的朋友都跟我说来点硬的，所以我带来了这样一款录音笔，这是搜狗发布的硬件产品，也在“双十一”的多个平台销量第一。可以看到这几年当中录音笔是一个很小众的市场，2015年就开始有所下滑，每年销量也就是400多万支，但是搜狗为什么选择这样一件事情呢？因为2019年这个市场发生了逆转，图中桔色的线是去年录音笔市场，可以看到由于手机的高度智能，这个市场开始减小，但是今年1-2月份搜狗发布新的产品之后，整个市场开始出现逆转，好像电商搜索平台的量又开始增加了。我们也成立了AI创新联盟，核心就是录音相关的，也把索尼、爱国者、纽曼这些巨头都组建起来，应该说也是搜狗牵头引领录音笔行业发生的变化。

我们可以看到在这当中有一个巨大的趋势，也就是两个基本断言，这个时代的硬件会呈现两个特点：一个是更加IO，一个是更加便携，这是技术、网络以及各种各样硬的能力给我们带来的变化。

回顾一下二十多年前，我们用的都是台式机，很重很笨，随着技术的提升，一个巨大的提升就是更加的便捷化。以前的台式机到笔记本、Pad和手机，再往下开始出现手表，耳机今年也非常火，再往下可能就是眼镜，所以硬件从计算力到连接能力以及AI化之后的一个趋势就是更加便携。另一个趋势就是更加强调IO能力。以前都是一个键盘、一个鼠标作为输入，一个屏幕作为输出，今天以手机为代表的大量虚拟触屏和语音设备，也有强大的摄像头，甚至开始有人脸识别、触控模式，包括手表开始走向心律、心电图的检测，就是越来越强调IO。个人判断音箱不会成为AI时代当中具有重大潜力的产品，虽然现在是亚马逊开头，因为音箱便携能力不够，不是跟着个人走的产品，IO能力不足，也就是声音进去声音出来，这样的场景IO能力有限，后面的AI能力就会受到巨大的限制，我们预言未来五到十年间眼镜可能会成为取代手机最重要的个人设备。

这些是我对人工智能和信息化的理解，也和邬院士有所不同，代表着2C从业人员的判断，如果有矛盾之处还是以邬院士的为准。要把人和简单的设备连接在一块，能够发邮件、聊天、看新闻看视频，这些已经做得非常好了。有人说互联网已经进入下半场了，好像做着做着就快没了，只能往下深挖，但我并没有看到瓶颈和限制，随着5G和6G技术的出现，网络正在不断出现，升级依然是主旋律，互联网文明仍然在往前走，那么就是工业互联网、产业互联网和IoT。

产业互联网更像邬院士讲的运营网络，使得网络底层的数据都被信息化，通过SaaS等模式大大改进公司的运作效率，以前靠人做决策的事情现在逐步交给机器，甚至使得公司数据走出公司边界，就像阿里的网络协同、菜鸟网络、小二以及其它广告设计，大家都在同一张网上把底层数据打通。

IoT就是Internet of Things，所以是互联网的一部分，但是中文翻译的时候可能带来一些误解，因此往下信息化依然会强烈地展开。

人工智能这个词从2016年开始就被问到非常多，如果我们忘掉这个词，而是今天我们所说的数据智能，智能来自于数据，没有数据的地方机器是没有能力去做模仿的，更没有能力去进行创造和推理，更多的就是在数据当中学习，有多少数据就能做多少人工智能，信息化做到多深人工智能就能做到多深，也就是穿透行业看到的视角。

谈到语言AI，搜狗具有得天独厚的优势，就是让语言更加性感。语言是人工智能皇冠上的明珠，代表着人工智能当中的最高水平。如果机器能够和人对话，这个机器肯定拥有很强的人工智能，就像人一样。我们看到一个机器，判断它智能不智能第一做法是和它聊两句。我们和外国人对音乐、视觉的理解都是一样的，唯独语言需要经过长期的学习。我们发明了语言，通过一种符号描述这个世界，也是知识和思维的载体，这是语言的魅力。

语言为核心的自然交互使得机器能够接受人的表达。八十年代的时候如果大家已经从业，1990年之前学电脑就是学打字，我们当时最关心的就是如何把我们的表达让机器能够理解，甚至上升到国家领导人的重要课题。李岚清到我们学校视察的时候我们就在演示新的技术，总理就说小同学，一分钟能打多少字？当时我听了很生气，这么低级的问题，但现在想起来，粮食的产量是物质的基础，汉字的产量代表着人和电脑结合最基础的元素。那个年代我们还在学习五笔，但往后走就是越来越智能，随着机器能力的提升就从人适应机器变成了机器适应人，我们开始有了语音和视觉的识别，所以人机交互会构成一个不变的主题，如何能够让机器理解人最自然的表达方式。

今天的时代已经变得非常好了，随着AI出现之后语音和图像的突破，使得机器对人的表达能够做得更好，那么就会带来新的智能硬件，手机作为载体已经发展到了极致的状态，往下也会把自然交互做得更高。

再就是知识计算，今天这在AI领域还是一个没有被攻克的问题，就是让机器产生像人一样通过语言进行分析思考。目前我们是在垂直领域来做这项局部的工作，比如现在整个通用的计算能力不够就放在医疗和客服，然后在局部领域把这样的通用智能能力限制以后降到具体的行业当中，实现局部的计算力。看一看现在人工智能在两个领域的能力，自然交互属于感知的问题，感知的问题使语音图像在今天得到深度学习的高度发展，而且是可靠的，甚至可以取代人，能够比人更加精准地工作，但知识计算是更前沿的工作，也就是对语言和符号的理解。

前来说就是两种做法：人机交互知识图谱，或者我们在做搜索的时候，人和机器配合起来一块工作，要么就是让用户去做选择，机器不能独立完成取代人的工作，也就是语言本身到现在还是一个悬而未决的难题。

自然交互当中最简单的课题就是语音识别，随着最近几年深度学习的发展，已经达到了一个新的高度，搜狗输入法支持每天峰值超过8亿次的语音识别请求，积累了大量的数据和能力，包括方言、语种、语音增强的问题，也有很多实用性部署，所以今天这个时代语音识别已经不是什么难题了，但在这背后还有很多技术，我们来看这样一个语音识别的场景。

可以看到这种语音识别融合了很多技术，科大讯飞北京研究院的朋友也在这里，一看就知道里面有些全能力的展示，不仅是识别得准，中间还包括了人身分离，通过AI算法可以知道声音不一样，除了语音之外也可以做笑声掌声方面的结构化识别，能够进行符号化，也就是我们所说的感知不同类型的符号。再就是英文混说，由于深度学习原理当中并不具有中英文混说的数据样本，所以传统语言人在做英文识别的时候不是调动感知的反应，发现不对的话我们就在想到底什么英文词能够恰如其分地进行这种嵌入和转化？这对核心语音识别系统是非常有挑战性的事情，所以语音识别背后还有若干工作需要去做。

关于降噪这件事情，原来是听不清楚一切都白搭，今天我们可以通过AI算法对历史上发生过的4万多种噪音进行相应的搜集和处理，也是做了非常大量的工作，能够对各种噪音进行学习，在这种情况下就能够把背景噪音进行很好的识别处理。现场有回响的回音和音乐的声音，我们可以把噪声进行分离。这是拿一个小的录音笔作为例子，背后显现出了很强的AI技术，并且已经做到极致。

除了语音识别之外，很重要的就是语音合成，前面大家可能觉得惟妙惟肖，已经和真人很接近了，但由于我们对语义有相应的理解，不同的段落当中会有抑扬顿挫和情感表达，到现在没有一个系统能够用独立的文字转化成一部长篇的故事或者长篇付费的音频节目，也就是出现同样的情感表达，因为背后有理解和表演的成分。两周之前我们第一次在逻辑思维付费的音频节目当中实现了本人语音合成技术，这种技术不是用文字和语音的转换，我们可以尝试用另外一个人来做一次朗读，把自己的情感和自己对语音的理解代入进去，然后通过综合迁移的方法把声音皮肤附上去，这样就是一种新的分工，有的负责语义理解，有的负责表演工作。

这是全球首次能够把这种真人语音合成技术带入实用，而且是在付费音频节目当中，大概50%的听众都没有听出来和真人有什么区别，可能有的觉得沙哑一些，觉得感冒了，也有的很愤怒，我是来听本人的表演，是花了钱的，你却拿机器人来糊弄我，这种观众占到20%，可以看到这样一些小心思。我们把制作和IP做到分离，生产之后能够24小时不间断地做商业节目，“假如生活欺骗了你，不要抱怨，抱我”，这项技术在未来各种场景当中都有实际用处，目前已经有31%的小朋友在听“凯叔讲故事”，很多都只认凯叔不认自己的爹了，我们可以把凯叔的表演和我的声音合在一块。

我们最早做语音技术的时候做了很好的唇语识别，不仅通过声波可以知道说什么，我们也可以转化为文字，这是一维的深度学习方式，要是只通过嘴唇运动进行识别，由此研发了基于三维的视觉表达，达到特定场景90%的效果。实验室技术也有进行实用，如果大家感兴趣的话可以在后面的展厅去尝试，想出任何一句诗词，不用发声机器就可以知道说的是什么内容，十句当中有九句都可以识别出来。现在我们是从嘴形到文字变成到从文字到嘴形的合成，由此开始做这样的分声技术，就是人机交互不仅是人讲的机器能懂，机器也可以通过交互像人一样去做表达。

这是最近我们和新华社合作的一款产品，新华社从今年2月份开始就用机器取代人进行新闻播报，之后我们又做了好几版的升级，能够使得产品升级从表情、手势都会变得更好。这样的一个主持人从原来每周下午一、二、五上班，现在转变为完全解放，开始升级成了一个采访记者，拿着摄像机和麦克风去做实际的采访，所以原有的工作已经被机器完整取代，不用化妆、灯光和摄像。新闻行业当中第一个被取代的职位反而是新闻主播，说明新闻主播本身的技术含量不是很高，不涉及到很多情感的表演表达。

平安普惠产品已经上线，以前都是靠人面对面的签约服务，随着技术的进步，人工客服已经被完全取代，我们提供语音合成和视觉合成能力，不过都是客服当中简单的确认性服务，要是销售的话估计这样会把客户吓跑。

目前语音视觉已经开始逐步走向语言，今天能够摸得到边的技术就是翻译，全球有70亿人当中汉语为母语的人口占到多少？大概20%，全球英文母语的占到多少？其实只排在全球人口的第四名，要比葡萄牙语和印地语还少，但英文是今天全球通用的语言，网页上95%的有效信息都是英文写的，100%的商贸活动都是用英文。所以作为中国人很难堪的是，当我们去国际上交流的时候需要被迫做多年的英文学习，除非是在当地生活或者理解外国的文化，那么需要精深的学习，大多数投入的学习成本和得到的收益是并不值当的，是否能够让机器帮助我们做到更好的翻译工作？

六十年代有了人工智能之后就一直在进行翻译，直到最近才大放异彩，中国的机器翻译是比美国做得更好，原因不在于技术更领先，而是态度更认真，今天的AI不仅靠算法，还要靠背后的数据驱动，中国公司是很努力地进行大量的数据搜集和加工工作。搜狗在2016年1月是全球首个在通用场景和大会上发布了这样一个英到中的同传系统，2017年1月也是行业当中首个英文检索，识别中文词语之后可以转化为英文，这对英文不是足够良好的人来讲有机会在全球获得交流信息，也是使用了一定的机器计算工作，加上很好的交互，使得我们的信息获取方式极大地拓展。

2017年10月，我们首个发布离线深度学习产品，也是一款翻译机。今天的深度学习网络结构特别大，如何把这种结构装到一个小设备当中？到了2018年我们是首个能够在Q3做到英到中的同传系统，也已经进入了使用状态，包括在苹果发布会当中进行精准转写，不过需要定期进行优化，包括医疗、科技、教育和物理学等等，因为机器并不具备足够高的认知能力，需要不断优化才能逐渐靠谱。

我们发现从感知到翻译正在走向更深的体系，人机对谈也是目前最有魅力的人工智能语言前景，就是苹果的Siri再到Echo，我们正在努力构造对话问答系统，这也代表人工智能2C的最高水准。前些日子我们发明了针对问答的机器，也是在节目当中做了表现。由于这款产品收窄到了知识类的问答，就是问的问题一定是有答案的，在这种情况下机器是可以超过人的。这是2016年的“一站到底”节目，最早的时候是可以PK过人的，系统升级到了选手冠军PK，再到后来要求先让人三分，就是3：0开始去做，关闭了机器的抢答能力，在这种情况下我们依然做到了不错的效果。因为这不是简单的数据库检索，而是主持人提问，通过语音和视觉，阅读网上上百亿的网页然后找到相关的答案，实时反馈比人更快，也是在搜索当中得到充足的使用。

面向个人的语言AI产品矩阵进行预测，一方面是自然交互的工作，文字到语音到图像的展开，这件事情会使得感知方面机器能够比人进行更好的取代，另一方面就是信息到知识计算的能力，所以可以看到横向跑得很快，就是输入法到智能硬件，不管是音箱到未来的耳机和眼镜，这些都是视觉听觉当中可以做得足够的好，纵向就是需要收窄领域，画虚线的也有医疗的问题，IBM Watson做了很久还没有很大的突破。

电影《Her》当中最需要解决的就是一个性感的个人助理，交互层面方面我们已经可以解决，但是对知识的理解还是下一个十年我们希望能够有突破的领域，就是让人人都能够有一个助理，甚至成为你的分身，这也是搜狗目前的使命。

实际上，AI与各行各业的结合已经深入肌理，传统行业都在面临着前所未有的变革窗口期。借助AI实现企业的转型升级，已经从以往的锦上添花变成了如今迫在眉睫。AI将如何重塑行业，行业需求又如何倒逼AI技术的发展，成为了值得探讨的问题。

责任编辑：ct

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2658411.html