有人认为诸如图形处理器(GPU)和TIlera处理器等多核处理器在某些应用中正逐步替代现场可编程门陈列(FPGA)。理由是这些多核处理器的处理性能要高很多,例如,由于GPU起初主要负责图形绘制,因此,其尤其善于处理单精度(SP)及(某种情况下)双精度(DP)浮点(FP)运算。TIlera的TILE设备当前不支持硬件FP运算,但要求进行软件模拟,且性能代价高昂。一般而言,FPGA亦是如此,设备通过利用多种资源来处理FP运算问题。达到可接受性能要求IP区块需消耗多个门并要求深流水线技术。例如:当前Tesla级GPU每秒最高可执行1012次浮点运算或1TFLOPS,而Xilinx Virtex-6设备则为150 GFLOPS。
当考虑到定点运算时,情况有所不同。新一代GPU在浮点速率相同的情况下可执行整数运算,例如:当Virtex-6设备提高至500GOPS时,GPU每秒可执行1012次运算或1TOPS。整数性能是TILE处理器的优势所在:8位数据时,TILE-Gx(图1)最高执行能力为750GOPS,32位数据时为188GOPS。
FPGA能够利用其并行及适应多种算法的特性来获得更加接近理论最大值的性能。但是,FPGA需要更大的硅片空间和更长的开发时间来接近这些理论最大值。对于适应于GPU硬件并行模式的算法,GPU已经能够达到峰值的20~30%。它们同样具有合理的硅密度(40nm工艺,32nm研发中)和开发时间(通常只有数周,而FPGA则需几个月)。TILEPro64处理器可提供FPGA相类似的适应性和GPU相类似的可编程性,但是,由于其粗糙的任务级问题分解特点使得其无法像FPGA和GPU那样实现细粒度并行。
图1:8位数据时,Tilera的TILE-Gx处理器最高执行能力为750GOPS
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)