芯原股份是少数同时拥有GPU IP、DSP IP、视频处理 IP和神经网络IP这四大类关键 IP的供应商。并且GPU IP、DSP IP 和视频处理IP三大领域均排名世界前三。
——记南京大学电子科学与工程学院特聘教授王中风
提起人工智能(AI),你首先想到的可能是机器人,但现阶段,神经网络才是当红的技术。自上世纪40年代相关的理论被提出后,神经网络经历了几十年跌宕起伏的发展。现如今,深度神经网络因其良好的学习和表达能力,已经在图像处理、自然语言处理等多个领域取得了突破性进展,成为了人工智能领域应用最为广泛的模型。但是在实际运用过程中,深度神经网络庞大的参数量和计算量给传统计算硬件带来了处理速度和能耗效率等方面的严峻挑战,高能效深度神经网络加速的优化设计与实现是新一代人工智能应用快速落地的关键。
基于以上需求,信号处理系统超大规模集成电路(VLSI)设计领域的国际著名专家,南京大学电子科学与工程学院特聘教授王中风,针对深度学习系统的算法优化与硬件加速展开了一系列研究。王中风教授兢兢业业、辛勤耕耘,为我国人工智能和集成电路设计等技术发展做出了突出贡献。
追逐梦想 秉承坚定科研情怀
王中风的人生与科研经历可谓丰富多彩,中专时期,他以顽强的毅力自学完成了高中和大学数学课程;青年时期,他放弃铁矿的“铁饭碗”,克服重重困难,通过自学以全县理科第一的成绩考上清华大学自动化系;大学期间,他从未停歇过前进的脚步,以优异的成绩提前完成本科学业并攻读硕士学位;毕业后,他先就职于北京一家高 科技 公司,之后出国深造,进入美国明尼苏达大学电机系继续攻读博士学位。读博期间,他努力付出,先后在行业顶级期刊上发表多篇高质量论文,且于1999年获得 IEEE 信号处理系统行业旗舰会议SiPS的最佳论文奖。
2000年博士毕业后,王中风先后进入美国国家半导体公司、俄勒冈州立大学电子与计算机工程学院以及美国博通公司工作,在不同单位都取得了一项又一项瞩目成绩。他曾先后参与十余款商用芯片的研发工作,主持设计的一些核心模块性能指标在行业处于领先地位。他的有关技术提案先后被IEEE等十余种网络通信标准所采纳。2015年,因在FEC(纠错码)设计与VLSI(超大规模集成电路)实现方面的突出贡献,他被评为IEEE Fellow。
虽然在美国有着优越的科研环境,王中风却清楚地知道,这并非他心之所向。“科学无国界,但科学家有国界”,身在海外,王中风一直心系祖国的发展,“那里才是家国和故土,要为她历尽所能”。 2016年,当祖国以“国际特聘专家”的形式召唤海外游子回国时,他毅然在事业的上升期回到祖国的怀抱,矢志为祖国的科研产业发展贡献自己的力量。
2016年,王中风进入南京大学电子科学与工程学院,同年,他牵头创建集成电路与智能系统(ICAIS)实验室,以数字通信与机器学习的设计与硬件优化为中心,面向智能制造、智慧工地及智慧社区等国家经济重大需求,和国内外诸多名校及一些顶尖企业开展合作,积极推动和引领中国集成电路设计领域发展,努力攻克技术瓶颈。如今,王中风的科研团队在国际集成电路设计领域已颇具影响,科研报国的梦想正在一步步实现。
开拓创新 突破人工智能芯片
“志之所趋,无远弗届。穷山距海,不能限也”。回国之后,王中风教授快速组建团队,精心布局,全面展开工作。凭借着20多年数字信号处理与IC设计领域丰富的研发经验,他带领团队以“算法与硬件架构协同设计优化”为中心,在人工智能算法与硬件架构,低功耗、强纠错能力信道编/解码硬件架构设计及可信计算加速等科研方向上全面发力,并取得了显著的学术成果。
具体到人工智能芯片设计方面,王中风带领团队开发了多维度的硬件友好型神经网络压缩算法和一系列高效深度学习的推理和训练硬件加速架构。在算法优化层面,他们创新了硬件加速架构对冗余信息的挖掘和处理方式,充分利用不同维度冗余信息的正交性,将动态计算调整与静态参数压缩相结合,在保证推理精度的前提下,显著降低了深度学习算法的计算复杂度和参数量。此外,团队就卷积神经网络等常用模型开展了全面系统地研究,创造性地开发了一系列计算优化及数据流优化方案,其中包括基于快速算法的卷积加速技术和层间融合复用的数据传输方案等,解决了其硬件设计在计算能力和传输带宽方面的两大瓶颈,大幅提升了系统计算效率、能效和吞吐率。
在硬件实现层面,针对神经网络中广泛存在的稀疏性及其并行处理时无法充分提升能效的瓶颈问题,他们引入了局部串行和全局并行的设计思想,可在不损失精度的前提下充分利用神经网络冗余性,明显提升了AI推理加速的功耗效率。结合完整工具链的定制设计,该高效架构可以在不同场景中得到广泛应用。在训练加速设计方面,王中风是最早 探索 新型数据表示格式的运用和可重构训练加速架构设计的学者之一。他带领团队首次利用Posit数据格式,设计了一种高效深度神经网络训练方法和Posit专用低复杂度乘累加单元,在大幅降低计算、存储开销和带宽需求的同时,实现了与全精度浮点数据格式下相同的模型精度。此外,王中风带领团队将高速电路设计领域最常用的并行计算与流水线处理技术充分运用到神经网络加速架构中,突破了递归计算带来的系统时钟瓶颈,从而最终提高了加速整体的吞吐率上限。
为了促进产学研的协同创新,王中风在2018年牵头创立了南京风兴 科技 有限公司,致力于人工智能芯片及智能系统解决方案等相关产品的研发。公司拥有国际领先的低功耗集成电路设计与优化技术,2020年独家推出了针对高性能智能计算的高能效稀疏神经网络计算芯片架构,支持常用深度学习算法,解决了AI芯片领域存在的通用性与高性能难以兼顾的难题,具有行业领先的能效比,可以满足云-边-端多种推理应用场景,减轻AI计算对内存带宽和存储的极高要求;在显著提升芯片性能的同时,能够大幅降低芯片成本,从而有效推动人工智能算法在诸多领域的实际落地。
天道酬勤,付出的汗水浇灌出了美丽的花朵,自2016年回国工作以来,王中风先后获得江苏省“双创人才”、“双创团队”领军人才、南京市“高层次创新人才”、“ 科技 顶尖专家集聚计划”A类人才等荣誉和奖励。2020年荣获吴文俊人工智能 科技 进步奖。2018-2021年,王中风共有7篇合著论文(均为通信作者)进入 IEEE 集成电路相关行业旗舰会议最佳论文奖的最终候选名单,其中关于AI硬件加速设计方面的工作创纪录地在18个月内连续四次荣获IEEE权威学术会议的年度最佳论文奖。与此同时,王中风团队已经申请发明专利数十项,其中9项专利被产业转化,带动 社会 资本投资数千万元。这些成绩也激励着王中风教授不断拓宽研究方向,砥砺向前。
Ambarella(下称”安霸半导体”,纳斯达克代码:AMBA,专注人工智能视觉的一家半导体公司)宣布推出 CVflow® 系列最新芯片 CV5,该款人工智能视觉处理器可支持 8K 视频录制或 4 路独立图像输入的 4K 视频流录制。 新 SoC 芯片 CV5 将推动智能汽车摄像系统、消费级无人机、运动相机和 360° 全景相机,以及机器人视觉系统的进一步发展。安霸半导体 CVflow AI 引擎与双核 Arm®A76 处理器的完美集成为各种主流人工智能算法提供卓越性能。CV5 拥有高性能图像信号处理器(ISP),可为视频编码优化以提高人眼观感,同时为机器视觉算法优化以提升准确度。CV5 采用 5 纳米先进制程,拍摄 8Kp30 视频所需功耗低于 2 瓦。
安霸半导体首席执行官 Fermi Wang 表示:“CV5 的问世让安霸半导体可为下一代智能汽车、消费类相机和机器人视觉提供全新革命性解决方案。 我们将性能卓越的 CVflow AI 引擎与 8K 视频录制和多路 4K 视频流录制集于一身,让摄像机拥有优秀的图像处理和新颖的人工智能。”
在汽车视频流远程处理应用中,CV5 可支持多路视频流编码,涵盖前置 ADAS、驾驶员监控、车舱监控及侧视摄像头。借助于 CVflow 人工智能引擎,CV5 可同时运行高级驾驶员辅助系统(ADAS)算法(如车道偏离、前方碰撞预警)以及驾驶员监控算法(如驾驶员疲劳驾驶检测)等。 多路高分辨率视频捕捉与先进的人工智能处理的完美结合,可支持 ADAS 摄像头在远距离以更高精度识别目标物体。
对于那些盈手可握的超低功耗运动相机,尤其是要支持 8K 视频高帧率录制和回放、360 度全景和 VR 的视频设备来说,CV5 是非常理想的解决方案。
在消费级机器人和无人机应用中,CV5 的 CVflow 人工智能引擎可加速 SLAM 运算、实现路径规划、障碍检测、避障,自主定位导航等全自动运作。 具体到无人机航拍,CV5 在执行飞行控制和导航功能的同时,可实现录制高达 8Kp60 的视频。
CV5 与安霸半导体其他 CVflow 系列芯片共享同一套 SDK 和计算机视觉算法优化(CV)工具,简化了各个价格区间和不同性能选项的相机开发流程。 一套完整的机器视觉工具包括了编译器、调试器,并支持行业标准的 PyTorch™、ONNX™、Caffe™ 和 TensorFlow™ 等机器学习框架,以及卷积神经网络(CNN)性能优化完全指南,可帮助客户将自己的神经网络快速移植到 CV5 上。
CV5 芯片关键特征:
· 支持 DNN 的 CVflow 架构
· 双核 1.6GHz Arm®Cortex®-A76 附带 NEON™DSP扩展和 FPU
· 高速 SLVS-EC, MIPI-CSI (C/D PHY)接口,可接入多达 14 个摄像头
· 多通道 ISP,处理能力高达 8KP60
· 原生支持 RGGB、RCCB、RCCC、RGB-IR 和单色传感器
· 多重曝光高动态范围(HDR)处理
· 实时硬件加速的鱼眼镜头畸变校正(LDC)
· 支持多码流,高达 8Kp60 的 AVC 和 HEVC 编码
· 多种外设接口,包括 4 通道 PCIe、CAN FD、千兆网口、USB 3.1(主/从模式),三个 SD 卡控制器,MIPI DSI/CSI-2 和 HDMI 输出
· 支持高达 32GB 的 LPDDR4x / LPDDR5 / LPDDR5x, 64 位数据总线
· 可实现设备信息安全包括安全启动,支持 TrustZone®、TRNG、OTP、内存隔离,内存加密和虚拟化
· 5nm 制程
· 16×16 FBGA 封装,球间距 0.5 mm
关于Ambarella(安霸半导体)
Ambarella 的产品广泛应用于人类和计算机视觉领域,包括视频安防、高级驾驶辅助系统(ADAS)、电子后视镜、行车记录仪、驾驶员及舱内智能监控、汽车无人驾驶和机器人应用等。Ambarella 的低功耗处理器可用于智能摄像机设计,支持超高清图像处理、视频压缩、深度神经网络加速,可从高分辨率视频中提取有价值的数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)