上周在圣克拉拉举办的嵌入式视觉年度峰会上,我们可以清晰地感知,计算机视觉和移动设备深度学习的全新时代终于来临。公众对该领域的关注热度可谓持续升温——今年的峰会日程从原来的一天延长到两天,参会人数之多着实令人印象深刻,而技术展示环节可谓精彩纷呈。
整个行业似乎都对计算机视觉的前景怀有充分信心,尽管其仍旧是一大挑战,但却越来越成为一个可以解决的问题。多个不同的细分市场包括汽车、监测、摄影和消费类电子产品都在积极开发视觉处理应用程序。
益华计算机(Cadence Design Systems)公司的展示实为一大亮点。在其展示中可以看到,越来越多的领域都涉及到传感器的使用——无论是相机、陀螺仪、温度计、接近传感器等,在许多今天的设备中处处可见传感器的身影。而看着这些传感器生成的数据时,你会猛然发现,整个图表都被大量由摄像机或视觉传感器生成的像素所覆盖。
益华突出显示了由图像生成的大量数据
视觉信息是带宽最高、信息量最丰富的可供用户与世界交互的方式。其面临的一大挑战是分析和使用视觉数据,因为其有可能需要消耗大量的计算资源和带宽。处理这些数据将需要不断地对传感器到输出的方案进行优化,以尽量减少功率和带宽的消耗,同时又能提供所需的性能——值得开心的是,我们最新发布的PowerVR多媒体IP则主要针对这类应用程序。
来自Google Brain项目团队的杰夫?迪恩指出,神经网络的使用会使结果更好,因为届时将产生更多的数据、更大的模型及更多的计算。他阐述了Google Brain项目自2011年以来便一直从事的深度学习工作。该项目有着独特的项目目录编写方式,如今目录编号已经达到1200。其广泛应用在Android应用程序、药物研发、谷歌邮箱、图像识别、地图、自然语言理解、图像、机器人技术研究、演讲、翻译、YouTube等方方面面,并将在未来不断发展。下图展示的是最新的GoogLeNet初始架构,其目前在图像识别方面的表现已经超过人类
谷歌在神经网络图像识别方面发展神速
从技术角度来看,今年峰会展示的一大焦点便是卷积神经网络(CNN)。对于那些并非致力于研究视觉处理的人而言,CNN不过是一种模拟大脑行为的机器学习方式,即模拟大脑视觉皮层识别和区分对象。
使用深度学习算法,CNN可用于计算摄影、计算机视觉、增强现实或虚拟现实等。谷歌则是该领域的引领者之一。其张量流引擎的开源旨在业内促进多人游戏模型、软件和硬件的开发。除了谷歌工具之外,其它工具也可以在其他框架中充分利用这些快速发展的深度学习,如Caffe工具便是可以免费使用的。
在峰会上,我的同事保罗?巴奈特陈述了移动GPU的高效卷积神经网络。保罗谈论了当下如何在数以百万的PowerVR移动GPU上运行最新的CNN算法。这些算法已经在贯穿诸多市场的SoC上可用,而其在计算摄影、增强现实、对象识别等方面展示的性能则相当可观。相比移动CPU,PowerVR GPU使用CNN时的效率可提高3倍,性能提高12倍。最新CNN架构的完全连接层更小,这将有助于更有效地利用计算资源。在技术展示环节,我们演示了这一概念——详见下文。
ImaginaTIon展示了CNN在PowerVR Rogue GPU上的运行
我们的演示使用的是含有 Intel Atom四核SoC的谷歌Nexus播放器,其包含了PowerVR G6430 GPU。该应用程序在Caffe框架及Alexnet模型上运行,使用OpenCL加速。演示则使用来自摄像机的实际输入来确定摄像机指向的对象,加之由网络产生的置信水平作为指示。其性能比在相同的网络上运行的CPU要高几倍。
嵌入式视觉已迅速蔓延至大量的应用程序中,从计算摄影和游戏到增强现实/虚拟现实和机器人,再到智能汽车和无人机,其触及的领域将远远超出这些。由于嵌入式视觉取得了巨大的飞跃,明年的行业峰会将更加令人拭目以待。
ImaginaTIon将继续推动这些技术在IP库的发展:可访问PowerVR图像和PowerVR视觉网站获取更多信息。请关注我们的Twitter (@ImaginaTIonPR,@GPUCompute和@PowerVRInsider)获取更多资讯。
您认为CNN是否将成为您所在应用领域视觉处理将使用的主要方法呢?
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)