(文章来源:电子工程世界)
在今天的大数据时代,企业和消费者被各种来源的海量数据淹没,包括商业交易、社交媒体以及传感器或机器对机器数据的信息。这些数据有多种格式,从传统数据库中的结构化数字数据到非结构化文本文档、电子邮件、视频、音频和金融交易。
对这些数据的有效分析是产生洞察力和驱动更好的决策制定和机器学习(ML)算法的关键,这些算法在现代数据分析中被广泛使用。深度卷积网络(DNN)作为一种特殊的ML算法,在图像分类中得到了广泛的应用。当前的一代DNN,如ALEXNET和VGG,依赖于密集浮点矩阵乘法(GEMM),这种算法具有规则的并行性和较高的TFLOPS(每秒浮点运算次数),能够很好地映射到GPU功能。
虽然FPGA比GPU更节能(在今天的物联网市场很重要),但它们在DNN上的性能与GPU并不匹配。英特尔进行的一系列测试评估了两种最新一代FPGA(英特尔的Arria TM10和staTIx TM10)与最新的高性能GPU (TItan X Pascal)在DNN计算上的性能。
由于数据并行计算具有规则的并行性和高浮点计算吞吐量,传统上DNN都使用GPU。每一代GPU都加入了更多的浮点单元、片上RAM和更高的内存带宽,以提供更多的浮点运算次数。然而,由于发散等问题,具有不规则并行性的计算可能会对GPU造成挑战。此外,由于GPU只支持一组固定的本地数据类型,定制定义的数据类型可能无法有效地处理,从而导致硬件资源利用率不足和性能不理想。
首先,下一代FPGA集成了更多的片上RAM。其次,像HYPERFLEX这样的技术可以显著提高频率。第三,还有更多的DSP可用。第四,HBM内存技术的集成导致芯片外带宽增加,最后,下一代FPGA将使用更先进的工艺技术,如14nm CMOS。
英特尔StraTIx 10 FPGA芯片拥有5000多个硬化浮点数单元(dsp),超过28MB的片上RAM (M20Ks),与高带宽内存(高达4x250GB/s/stack或1TB/s)集成,并改进了新HyperFlex技术频率,使得FP32吞吐量峰值9.2 Tflops。此外,FPGA开发环境和工具集也在不断发展,支持更高抽象级别的编程,开发人员更容易访问FPGA编程。
英特尔最近在研究下一代DNN的各种GEMM *** 作。开发了用于FPGA的DNN硬件加速模板,为开发稀疏矩阵算法和自定义数据类型提供了一流的硬件支持。该模板是为了支持各种下一代DNN而开发,并且可以定制,为用户给定的DNN变体生成优化的FPGA硬件实例。
该模板被用于运行和评估下一代DNN的各种关键矩阵乘法 *** 作,当前和下一代FPGA (Arria 10, StraTIx 10)以及最新的高性能Titan X Pascal GPU.本研究结果发现,与Titan X Pascal GPU相比,在pruned, Int6和二值网络学习上(pruned, Int6, and binarized)DNNs的GEMM *** 作上,Stratix 10 FPGA的性能分别是Titan X Pascal GPU的1.1倍、1.5倍和5.4倍。
这些测试还表明,Arria 10和Stratix 10 FPGA相对于Titan X GPU提供了令人满意的能源效率(TOP/sec/watt),与Titan X相比,这两种设备的能源效率都提高了3到10倍。虽然GPU一直是支持DNN的无可争议的选择,但最近对两代Intel FPGA (Arria 10和Stratix 10)和最新的Titan X GPU的性能比较表明,当前DNN算法的趋势有利于FPGA,甚至FPGA可能提供更好的性能。
(责任编辑:fqj)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)