人工智能新图景 :谷歌 AI 中国中心成立
刚刚, Google Cloud 人工智能和机器学习团队的首席科学家李飞飞宣布,谷歌 AI 中国中心在北京成立。该中心由李飞飞和 Google Cloud 研发负责人李佳博士共同领导。李飞飞将会负责中心的研究工作,也会统筹 Google Cloud AI, Google Brain 以及中国本土团队的工作。
除了发表自己的研究成果,谷歌 AI 中国中心也非常期待能在中国本土合作上有所建树,为更广大的学生及研究人员提供高质量 AI 及机器学习的教育支持。
除此之外,一起来看看其他嘉宾的演讲精彩内容:
TensorFlow 微信公众号正式发布!
软件工程师 Anna Goldie
不久前我们发布了 TensorFlow 中文网站 tensorflowgooglecn。就在今天,我们发布了 TensorFlow 微信公众号,为中国开发者提供最新的 TensorFlow 新闻和技术资源。
在过去的两年中,我们看到了一个围绕 TensorFlow 的机器学习开源社区在蓬勃发展。在 GitHub 上获得了超过 81,000 个评星 (stars),23,000 多个项目的标题包含 “TensorFlow”,1100 多个开发者贡献了代码。
Google 已经研发出非常强大的 TPU Pod, 目前每秒钟可以做出 115 千万亿次浮点运算 (PetaFlops), 4 兆兆字节 (TB) 内存。正因为我们有了这样强大的计算能力,通过全世界科技精英的共同努力,我相信在不久的将来,我们可以解决现在看来无法想象的问题。
另外,Google 刚刚发布 TensorFlow Lite 开发者预览版,其是 TensorFlow 直接为移动设备发开的轻量级开源机器学习库。此框架针对机器学习模型的低延迟推理进行优化,占用内存小,并具有快速性能。
蓬勃生长的 Android
Google 开发技术推广工程师 高寒蕊
至今,全球有 20 亿激活的 Android 设备和 Google Play 上高达 820 亿的应用安装。 越来越清晰的应用设计前景、越来越强大的开发工具、新的开发语言、人工智能以及分布模型的改进。这些变化,都离不开我们来自各个渠道的开发者们。
在过去的一年里,应用安装量过百万的开发者数量增长了 35%。为了将这样巨大的用户量转化成更好的开发者收益,我们加大了与运营商的合作。 目前有超过 140 家运营商可进行代扣费的付款方式,它们覆盖了 9 亿的手机设备。把这些都算在一起的话,去年在 Google Play 进行消费的用户数增长了 30%。
上周,Google 发布了 Oreo 81 的正式版,这个版本不仅有 Android Go Edition 轻量级版本和针对入门机型的优化,也会有新的神经网络API来帮助开发者去创建基于设备的机器学习方面的应用,包括图像识别、预测等等。
为了优化开发体验,Android Studio 30 版本新增了应用剖析工具、更佳的 Kotlin 语言支持、加快了 Gradle 大项目的编译速度等。
此外,针对中国市场,我们推出了Android Wear 中国版。我们与国内的应用开发厂商合作,致力于为 Android 手机用户及 iPhone 用户提供最好的用户体验。
IoT, Android Things, 和 Google 智能助理
Android Things
开发技术推广工程师 Wayne Piekarski
Android Things 是物联网和嵌入式设备在 Android 平台的延伸。目前开发者预览版可以立即进行测试。它使 Android 的以新的形式加入到已有的移动设备、穿戴设备,电视和汽车的 Android 大家庭中。Android Things 硬件基于 System-on-Module 或 SoM 架构,以非常小的包装包含 CPU,内存,网络和其他核心组件。 SoMs 非常便宜,因为它们是大量生产的通用零件。在原型设计和开发过程中,您将 SoM 附加到一个更大的突破板上来构建您的想法。
Google 智能助理(Google Assistant)
Google 智能助理可以在数百万台设备上使用,包括 Google Home 之类的语音激活扬声器,符合条件的 Android 手机,Android TV,Google Pixelbooks,耳机和 Android Wear,即将推出 Android Auto。
我们鼓励您为 Google 智能助理创建应用程序,覆盖全球各地的大量用户。无论用户身在何处,无论他们在做什么,Google 智能助理都可以随时使用语音或文本。而且我们在世界各地的各种语言和语言环境中都可以使用,并随时添加新的语言和语言环境。
同时,我们还发布了 Google Assistant SDK,可让您将 Google 智能助理嵌入到自己的自定义硬件项目中。Google Assistant SDK 适用于 Linux,Android Things 以及支持 gRPC 的任何其他平台。
Mobile Web: PWA 帮助中国开发者优化用户体验
开发技术推广工程师 Michael Yeung
对于开发者来说,Mobile Web 是一个很大的舞台,全球 Chrome 浏览器的总量已经超过 20 亿。在过去的一年中,我们已经发布了数百个额外的 API,涵盖了一系列功能,从简化付款集成到直接在网络上构建功能齐全的离线媒体体验。
借助所有这些功能,现代移动网络还已经能够让开发人员利用我们称之为 Progressive Web Apps,或简称 PWA,构建深入丰富的移动体验。他们可以快速加载,离线 *** 作,甚至可以向用户发送通知。
目前,支持 PWA 的核心技术已经在全球许多个主要浏览器中得到了支持,同时也延伸到了中国的主要浏览器。例如,在中国,360 浏览器,手机百度以及最近的UC浏览器都已经支持 Service Worker 的规范以及 PWA 所依赖的 Cache API,将这些一致的可靠体验带给用户。QQ 浏览器也宣布了在不久的将来就会支持 Service Worker 的规范。这意味着,作为开发人员,您现在可以开始构建 PWA 了,无论您身在何处,您都可以为用户提供现代化的移动 Web 体验。
并且,我们已经看到了令人欣喜的实际应用:作为中国最受欢迎的社交媒体网站之一,新浪微博最近投放资源打造一个全新的 PWA 体验,现在在测试阶段,提供流畅的用户体验,并在所有网络条件下可靠无缝地运行。用户可以通过手机网站撰写和分享自己的微博信息,即使在网络条件较差的情况下,也可以继续浏览微博内容,欣赏和视频。
Firebase 中的 Crashlytics : 崩溃分析报告王牌产品
至今,已经有 100 万开发者使用 Firebase 开发软件。为了帮开发者更快地开发,可以使用实时数据库和 Crashlytics 等产品,通过 Google Analytics 和 Cloud Messaging 等了解并改进应用。
费良宏:程序员为什么要学深度学习?深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发,让大家观察一下深度学习对程序员意味着什么,以及我们如何利用这样一个高速发展的学科,来帮助程序员提升软件开发的能力。
本文根据费良宏在2016QCon全球软件开发大会(上海)上的演讲整理而成。
前言
1973年,美国上映了一部热门的科幻《WestWorld》,三年之后又有一个续集叫做《FutureWorld》。这部在80年代初被引进到中国叫《未来世界》。那部对我来讲简直可以说得上是震撼。影片中出现了很多机器人,表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。
时间到了2016年,很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部还是局限在机器人、人工智能这样的话题,2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类,而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。
“记忆究竟如何影响了智能”这个话题非常值得我们去思考,也给我们一个很好的启示——今天,人工智能领域究竟有了怎样的发展和进步。
今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣,我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度,人们对深度学习的关注也越来越高。
从另外的一个角度,我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。
其中最疯狂的是就是Google,已经收购了 11 家人工智能创业公司,其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例,仅在今年就已经收购了 3 家创业公司,Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。
当我们去搜索深度学习话题的时候,经常会看到这样的一些晦涩难懂的术语:Gradient descent(梯度下降算法)、Backpropagation(反向传播算法)、Convolutional Neural Network(卷积神经网络)、受限玻耳兹曼机(Restricted Boltzmann Machine)等。
如打开任何一篇技术文章,你看到的通篇都是各种数学公式。大家看到如下左边的图,其实并不是一篇高水准的学术论文,而仅仅是维基百科关于玻耳兹曼机的介绍。维基百科是科普层面的内容,内容复杂程度就超过了大多数数学知识的能力。
在这样的背景之下,我今天的的话题可以归纳成三点:第一,我们为什么要学习深度学习;第二,深度学习最核心的关键概念就是神经网络,那么究竟什么是神经网络;第三,作为程序员,当我们想要成为深度学习开发者的时候,我们需要具备怎样的工具箱,以及从哪里着手进行开发。
为什么要学习深度学习
首先,我们谈谈为什么要学习深度学习。在这个市场当中,最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方?我非常喜欢AndrewNg(吴恩达)曾经用过的一个比喻。
他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分,就是它的引擎,目前来看在这个领域里面,引擎的核心就是神经网络。大家都知道,火箭除了引擎之外还需要有燃料,那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候,更多是强调存储和管理数据的能力,但是这些方法和工具更多是对于以往历史数据的统计、汇总。
而对于今后未知的东西,这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合,我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信(神经网络代表的深度学习)是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。
其次,随着我们进行数据处理以及运算能力的不断提升,深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来,在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域,性能是我们选择深度学习另一个重要的原因。
这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到,将深度学习应用在自动驾驶方面,仅仅经历了3千英里的训练,就可以达到什么样的程度。在今年年初进行的实验上,这个系统还不具备真正智能能力,经常会出现各种各样的让人提心吊胆的状况,甚至在某些情况下还需要人工干预。
但经过了3千英里的训练之后,我们看到在山路、公路、泥地等各种复杂的路况下面,无人驾驶已经有了一个非常惊人的表现。请大家注意,这个深度学习的模型只经过了短短几个月、3千英里的训练。
如果我们不断完善这种模型的话,这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论:深度学习可以为我们提供强大的能力,如果程序员拥有了这个技术的话,无异于会让每个程序员如虎添翼。
神经网络快速入门
如果我们对于学习深度学习没有任何疑虑的话,接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”,容易混淆是这样两个完全不同的概念。
一个是生物学神经网络,第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候,他会抛出许多陌生的概念和术语让你听起来云里雾里,而你只能望而却步了。
对于人工智能神经网络这个概念,大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念,也很让你找到一个清晰、简单的结论。
今天就我们来看一看,从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部——1991年上映的《终结者2》。男主角施瓦辛格有一句台词:
“MyCPUisaneural-netprocessor;alearningcomputer”(我的处理器是一个神经处理单元,它是一台可以学习的计算机)。从历史来看人类对自身智力的探索,远远早于对于神经网络的研究。
1852年,意大利学者因为一个偶然的失误,将人类的头颅掉到硝酸盐溶液中,从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索,开启了人工智能、神经元这样概念的发展。
生物神经网络这个概念的发展,和今天我们谈的神经网络有什么关系吗?我们今天谈到的神经网络,除了在部分名词上借鉴了生物学神经网络之外,跟生物学神经网络已经没有任何关系,它已经完全是数学和计算机领域的概念,这也是人工智能发展成熟的标志。这点大家要区分开,不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。
90年代中期,由Vapnik等人提出了支持向量机算法(Support Vector Machines,支持向量机)。很快这个算法就在很多方面体现出了对比神经网络的巨大优势,例如:无需调参、高效率、全局最优解等。基于这些理由,SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。
在被人摒弃的十年里面,有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年,他的在著名的《Science》杂志上发表了论文,首次提出了“深度信念网络”的概念。
与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面,他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。
很快,深度学习在语音识别领域崭露头角。接着在2012年,深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中,用多层的卷积神经网络成功地对包含一千个类别的一百万张进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了将近11个百分点。
这个结果充分证明了多层神经网络识别效果的优越性。从那时起,深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展,就是从那个时候开始引爆的。
利用神经网络构建分类器,这个神经网络的结构是怎样的?
其实这个结构非常简单,我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线(有向弧)则被看作是“神经”。这这个图上神经元并不是最重要的,最重要的是连接神经元的神经。每个神经部分有指向性,每一个神经元会指向下一层的节点。
节点是分层的,每个节点指向上一层节点。同层节点没有连接,并且不能越过上一层节点。每个弧上有一个值,我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少?我们是通过训练得出结果。它们的初始赋值往往通过随机数开始,然后训练得到的最逼近真实值的结果作为模型,并可以被反复使用。这个结果就是我们说的训练过的分类器。
节点分成输入节点和输出节点,中间称为隐层。简单来说,我们有数据输入项,中间不同的多个层次的神经网络层次,就是我们说的隐层。之所以在这样称呼,因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点,输出节点是有限的数量,输入节点也是有限数量,隐层是我们可以设计的模型部分,这就是最简单的神经网络概念。
如果简单做一个简单的类比,我想用四层神经网络做一个解释。左边是输入节点,我们看到有若干输入项,这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络,这个网络现在有不同的层次,层次之间权重是我们不断训练获得一个结果。
最后输出的结果,保存在输出节点里面,每一次像一个流向一样,神经是有一个指向的,通过不同层进行不同的计算。在隐层当中,每一个节点输入的结果计算之后作为下一层的输入项,最终结果会保存在输出节点上,输出值最接近我们的分类,得到某一个值,就被分成某一类。这就是使用神经网络的简单概述。
除了从左到右的形式表达的结构图,还有一种常见的表达形式是从下到上来表示一个神经网络。这时候,输入层在图的最下方,输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。
简单来说,神经网络并不神秘,它就是有像图,利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇著名的论文中,将深度学习总结成三个最重要的要素:计算、数据、模型。有了这三点,就可以实现一个深度学习的系统。
程序员需要的工具箱
对于程序员来说,掌握理论知识是为了更好的编程实践。那就让我们看看,对于程序员来说,着手深度学习的实践需要准备什么样的工具。
硬件
从硬件来讲,我们可能需要的计算能力,首先想到的就是CPU。除了通常的CPU架构以外,还出现了附加有乘法器的CPU,用以提升计算能力。此外在不同领域会有DSP的应用场景,比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU,这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA(可编程逻辑门阵列)。
这四种方法各有其优缺点,每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些,但是擅长管理和调度,比如读取数据,管理文件,人机交互等,工具也丰富。DSP相比而言管理能力较弱,但是强化了特定的运算能力。
这两者都是靠高主频来解决运算量的问题,适合有大量递归 *** 作以及不便拆分的算法。GPU的管理能力更弱一些,但是运算能力更强。但由于计算单元数量多,更适合整块数据进行流处理的算法。
FPGA在管理与运算处理方面都很强,但是开发周期长,复杂算法开发难度较大。就实时性来说,FPGA是最高的。单从目前的发展来看,对于普通程序员来说,现实中普遍采用的计算资源就还是是CPU以及GPU的模式,其中GPU是最热门的领域。
这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置,总共的资源创建、设置时间大概在10分钟以内。而之前,我安装调试前面提到的那台计算机,足足花了我两天时间。
另外,从成本上还可以做一个对比。p28xLarge 实例每小时的费用是72美元。而我自己那台计算机总共的花费了是¥16,904元。这个成本足够让我使用350多个小时的p28xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代,我可以不断的升级我的实例,从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。
云计算和深度学习究竟有什么关系?今年的8月8号,在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言:如果深度学习的并行能力不断提高,云计算所提供的处理能力也不断发展,两者结合可能会产生新一代的深度学习,将带来更大影响和冲击。这是需要大家考虑和重视的一个方向!
软件
深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。
Scikit-learn是最为流行的一个Python机器学习库。它具有如下吸引人的特点:简单、高效且异常丰富的数据挖掘/数据分析算法实现; 基于NumPy、SciPy以及matplotlib,从数据探索性分析,数据可视化到算法实现,整个过程一体化实现;开源,有非常丰富的学习文档。
Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。
Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行,使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。
Jupyter notebook 是一个很强大的基于ipython的python代码编辑器,部署在网页上,可以非常方便的进行交互式的处理,很适合进行算法研究合数据处理。
Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用,程序的效率非常出色。Facebook在人工智能领域主打Torch,甚至现在推出了自己的升级版框架Torchnet。
深度学习的框架非常之多,是不是有一种乱花渐欲迷人眼的感觉?我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架,这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用,效果很好。
用TensorFlow可以做什么?答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络(Long-Short Term Memory, LSTM)。
关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量,是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解,用我自己的语言解释Tensor 就是“N维数组”而已。
使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念:它使用图 (Graph) 来表示计算任务;在被称之为 会话 (Session) 的上下文 (context) 中执行图;使用 Tensor 表示数据;通过 变量 (Variable) 维护状态;使用 feed 和 fetch 可以为任意的 *** 作(arbitrary operation) 赋值或者从其中获取数据。
一句话总结就是,TensorFlow 就是有状态图的数据流图计算环境,每个节点就是在做数据 *** 作,然后提供依赖性和指向性,提供完整数据流。
TensorFlow安装非常简单,但官网提供下载的安装包所支持的CUDA 的版本是75。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8,那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python27、33+。
此外,对于使用Python 语言的程序员还需要安装所需要的一些库,例如:numpy、protobuf等等。对于卷积处理而言,cuDNN是公认的性能最好的开发库,请一定要安装上。常规的Tensorsorflow的安装很简单,一条命令足矣:
$ pip3 install —upgrade >要说可靠的话,机智云AI离线语音识别方案就很可靠。机智云专注物联网行业10多年,在IoT+AI技术基础和解决方案实施方面有着深厚的经验。针对家电产品的智能语音控制消费需求,机智云专为软硬件研发能力较弱的传统家电厂商推出低成本、免开发的AI智能离线语音识别解决方案。该方案依托于机智云在语音识别技术上的积累和算法的不断优化和创新,通过提供AI智能离线语音识别模组+公版小程序/APP应用+IoT云平台的组合套件,快速实现传统家电产品的智能化升级,同时轻松完成各类家电产品智能语音集成,大大提升产品响应速度,让消费者不受网络因素的影响,也可以随心所欲对智能家电等进行语音控制。
机智云AI智能离线语音识别解决方案,帮助家电厂商免去复杂的协议和移动应用开发流程,极速响应产品智能化需求,满足各类智能家电的离线语音控制场景。
。基于低功耗、低成本、高集成离线语音识别模块,轻松实现智能家电语音控制功能,可支持多品类语义词、多国语言识别、用户自定义唤醒词、语义词,并提供多语言语音AI交互能力,满足消费者个性化需求。同时,提供公版 APP/微信小程序,可根据厂商品牌视觉要求提供专业的 UI/UE 设计界面,满足厂商定制化需求。
机智云AI离线语音识别解决方案已经帮助大量家电厂商实现产品低成本快速智能化升级,可用于各类智能小家电有语音控制需求的产品,如取暖器、加湿器、风扇、风扇灯、水族灯、水泵等。机智云作为AIoT全栈(综合)物联网平台服务商,其提供的离线语音识别解决方案还是比较靠谱的。如果您需要了解更多方案的细节,可以访问官方网站或者联系客服进行咨询。
近期,因特尔宣布将旗下所有人工智能产品整合到一起,成立其人工智能产品事业部AIPG。就在不久前,百度也调整了自身人工智能架构,整合为统一的AIG平台,而联想也在今年成立了人工智能实验室。除此之外,去年微软也将技术研发部与AI研发部合并,新成立了人工智能事业部。
各公司一系列颇多动作不再一一例举,从去年至今,一场关于人工智能的暗战已经开始,各公司都在为人工智能这一战场,抽取各方资源全力以赴。
如此迅速调整组织架构的科技企业,都到底为了什么?这里从三个层面进行解读。
人机交互场景升级,抢占用户智能场景
从宏观层面来看,人工智能目前似乎并没有形成山呼海啸之势,倒像是炒作更多。
但实际上人工智能其实无处不在,我们搜索资料需要人工智能,电商购物需要人工智能推荐,哪怕发一条消息背后充满了各种人工智能。
也正是因为人工智能真正进入到我们的生活后,反而无法感知到人工智能的存在,因此当企业在谈人工智能的时候,作为用户很难有切实的感受。
人类对技术的感知越来越弱,本质原因正是由于机器对于人的感知越来越强,越来越智能。
在未来,但凡联网的东西,都会对用户实现各种感知,目前可以想到最典型的就是语音助理场景,用户一旦开口就能够得到回应。例如苹果在iphone与mac中加入了SIRI语音助理,亚马逊在其智能音箱中加入了echo,微软在win10中推出了小娜,谷歌在其手机中加入了Assistant,而百度也推出DuerOS人工智能 *** 作系统,并成立了度秘事业部。
语音技术只是一方面,要想全方位的感知用户,那就还需要自然语言理解技术,语音合成技术,人脸识别技术等等才能打出一套全方位的组合拳,因此人工智能技术不是独立的,必须全面开花。
而国内目前也就百度的布局最为全面,其以百度大脑为核心,涉及语音识别、图像识别、自然语言处理、用户画像四大能力。而百度也是唯一一家两次入围《麻省理工科技评论》“十大突破性技术”的中国公司。
"wintel"联盟瓦解,抢占新联盟入场券
wintel即微软windows与intel的联盟,任何个人PC的更新换代都离不开这二者的相辅相成,这也是PC时代的王者组合,无人可破。
但人工智能时代,则在让wintel的联盟优势彻底瓦解,用户入网的方式不再依赖电脑,其还跨越到了手机、平板、电视、智能音箱、智能手表等一系列诸多设备,而不同设备又可以对应不同智能交互场景,windows系统也已经无法完全担当这一重任。
硬件巨头与平台巨头都在从各自的优势切入到这局比赛。
1)硬件巨头抢占技术高地,一个有趣的事情是在PC时代NVIDIA做的是显卡,intel做的是CPU,本来井水不犯河水,但是却在人工智能的战场上兵戎相见,去年NVIDIA直接宣布自己是一家人工智能公司,并已经帮助了谷歌、百度、脸书、特斯拉等公司实现了深度学习的集群服务器建设,GPU才是人工智能未来,而intel今年匆忙成立人工智能部门则算是对NVIDIA的迅速回应。
对于像NVIDIA、intel硬件巨头来说,其需要适配的已经不再是单一简单的电脑,而是各种涉及人工智能的集群运算,以及深入到各个其他硬件产品中,成为其基础设施。
加大硬件技术与人工智能的结合,因特尔、英伟达为例,从底层硬件基础设施切入,以希望结成新的联盟。
2)平台巨头作出更大战略架构调整,对于平台巨头来说,他们的人工智能战场则是利用自身优势切入到更多的场景之中。
例如亚马逊推出的echo就较为成功可以抢占用户客厅,并且基于电商优势让用户可以更方便的购物,尽管苹果的Siri也能够与用户对话,却缺乏电商能力,但同时Siri也有echo所无法完成的独家功能,因此各家都有可能拿到一部分市场,也有可能被吞并,变数颇多,这也是平台巨头们所焦虑的未来。
所以相对于硬件公司,平台巨头的竞争也更为激烈,需要在人工智能上的战略作出更大的调整,目前来看谷歌与百度的调整幅度最大,二者也极为相似。
谷歌将所有研发领域的项目与传统现金流业务进行剥离,成立Alphabet子公司来聚焦未来领域。而百度在架构上也与谷歌类似,其将传统搜索业务剥离由向海龙守城,而其余一切聚焦于未来前沿包括无人车、度秘事业部,智能家居事业部等等并由陆奇统帅,重兵挺进人工智能。
抢占成为最大AI开放平台,成为底层基础设施
早期互联网之所以能够兴盛,原因在于有着php、mysql这样免费的开源软件可以供所有人使用,而这也直接促进了整个互联网的发展,直到今天PHP也依然是很多公司的开发语言。
但是今天就不一样了,人工智能时代,即使大公司给个人开发者开放了各种人工智能的框架源码,其也无法有效使用,运行这些代码需要集群运算处理的能力,因此未来,小到个人开发者,大到公司都需要与人工智能平台进行合作,调用他们的人工智能能力,让他们的技术为自身所用。
谁的技术被最多的人使用,谁的开放平台最大,谁就能够接入更多的开发者,进而掌握人工智能的话语权。
所以我们看到巨头们都在两手抓,一手做AI代码开源,一手做AI开放平台。
代码开源方面,Facebook最知名的开源项目为一个人工智能硬件项目"Big Sur"、谷歌最大开源的项目是"Android"这里不一一例举。目前国内在人工智能开源上做的并不多,百度于2016年百度世界大会上开源的PaddlePaddle深度学习平台,为学生、创业者和各界技术人员提供了一个低门槛开发平台。
开放平台方面,国外在这方面做得比较迟缓,目前只有微软和谷歌做了语音开放平台,而谷歌在2015年做了图像识别开放平台。也直到去年12月,拥有海量AWS用户的亚马逊才姗姗来迟,开放了语音识别以及人脸识别的能力。
相较而言,百度的开放最为彻底——语音技术、图像技术、自然语言处理技术、用户画像、机器学习、AR增强现实等等均对开发者开放。
结语:
去年以来,越来越多的公司将AI视为发展重点,并抽取大量公司资源来应对下一场人工智能之战,一切并非空穴来风。用户的人机交互场景在升级,旧的联盟在解体,新的联盟在形成,既是危机也是机会,不得不殊死一搏。
作者:“首席发言者”
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)