基于SDAccelTM 开发环境减少FPGA在应用中使用时造成的障碍

基于SDAccelTM 开发环境减少FPGA在应用中使用时造成的障碍,第1张

赛灵思SDAccel 环境能在FPGA 上提供类似CPU的开发与运行时间体验,减轻数据中心设计负担。

 

从支持中小机构运作的服务机房,到支持美国大型企业和提供云计算服务接入的企业级数据中心,数据中心在现代经济中发挥着骨干作用。根据自然资源保护委员会的统计,数据中心是美国用电量最大、增长最快的用电大户之一。2013 年美国数据中心估计耗电约910亿千瓦时,超过纽约市全部居民用电的两倍以上,而且到2020 年用电量有望达到1400 亿千瓦时[1]。很明显,降低用电对于扩展数据中心,提升可靠性和降低运营成本具有重要意义。

根据具体的服务器应用,数据中心各个不同。许多服务器长期不间断运行,使得硬件可靠性和耐用性极为重要。虽然服务器可以使用商用计算机部件组装,但关键任务型企业级服务器往往使用以硬件加速为目的的专用硬件,如图形处理单元(GPU)和数字信号处理器(DSP)。现在许多企业寻求使用现场可编程门阵列(FPGA),因为FPGA 是一种高度并行的架构,而且功耗相对较低。赛灵思的新款SDAccelTM 开发环境为开发人员提供了一种熟悉的CPU 或类似CPU 的环境,避免编程给FPGA 在此类应用中使用时造成的障碍。

提升性能功耗比

Amazon We b 服务、Google ComputeMicrosoft Azure 和中国的百度等公有云(public cloud)拥有巨大的图片库,需要极快的图像识别能力。在一个实现方案中,谷歌科技人员将16000 个计算机处理器连接为一个实体,创建出了一个极为庞大的机器学习神经网络,然后投放到互联网上,让其自主学习。这项研究是新一代计算机科学的代表。这一代计算机科学以充分利用大型数据中心中的大量计算机集群的运算能力为目标。潜在应用包括让图像搜索、语音识别和机器语言翻译能力迈上新的台阶。但是对数据中心设计而言,仅依靠充分利用CPU 并非是一种高能效的做法。要提高速度、降低功耗,还需要其他解决方案。

中国最大的搜索引擎百度借助于深度神经网络处理技术来解决语音识别、图像搜索和自然语言处理方面的问题。百度迅速判定,如果在在线预测中使用神经网络反向传播算法,FPGA 解决方案在降低功耗的同时,还能以比CPU/GPU 简便得多的方式进行扩展[2]。

因在数据中心服务器的主机卡和线路卡中集成了FPGA,新一代28nm和20nm 高集成度FPGA 系列(如赛灵思7 系列和UltraScaleTM 器件)正在改变数据中心动态发展状况。性能功耗比可以轻松达到CPU/GPU 的20倍以上,同时在某些应用中与传统CPU 相比,时延可降低50 至75倍。

但是对FPGA 硬件资源有限或缺乏的开发团队而言,由于需要使用RTL(VHDL 或Verilog)开发专业知识才能充分发挥FPGA 的性能优势,因此过渡到FPGA 难度较大。为解决这一问题,赛灵思已引入开放计算机语音(OpenCLTM)作为减轻编程负担的方法。

OpenCL代码移植性

由苹果公司开发并经Khronos 集团推广的OpenCL [3] 有助于异构设计中的CPU、GPU、FPGA 和DSP 模块集成。为增强用于编写可在异构平台上运行的程序的OpenCL 框架,赛灵思等业界领先的CPU、GPU 和FPGA厂商都在为这种语音及其API 的开发做出努力。

OpenCL 被CPU/GPU/FPGA 厂商、服务器OEM 厂商以及数据中心管理人员等日益广泛地接受,说明各方都已经认识到一个严峻的现实:用于单处理器架构的C 语言编译器在服务器机架内部只能实现小幅总体功耗降低,即便是在处理器采用低于20nm 的工艺技术并添加特殊省电状态后依然如此。

OpenCL 是一种用于编写可在由CPU、GPU、DSP、FPGA 及其它处理器构成的异构平台上运行的程序的框架。OpenCL 包含基于C99 的编程语言和应用编程接口(API),以控制平台和在目标器件上执行程序。OpenCL 使用基于任务和基于数据的并行机制提供并行计算功能。

SDAccel编译器相对CPU性能提高10倍,且功耗仅为GPU的1/10。
     

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2607192.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-09
下一篇 2022-08-09

发表评论

登录后才能评论

评论列表(0条)

保存