FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第1张

1、AIFPGA将越来越多

FPGA是AI/ML运算的主要芯片之一。据市场调查公司Semico Research的2019年5月数据,2018年用于AI的FPGA市值约10亿美元,预计2019年为18亿美元左右。到2023年的未来四年中,AI用FPGA将增长约3倍,达到52亿美元(如下图)。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第2张

这个增长是惊人的,因为过去多年来,FPGA业的年均增长率只有8%~9%。

目前,25%的商业已经实现了AI/机器学习(ML),未来两年内将达72%。带来的好处是在核心功能方面带来商业的洞察力,诸如市场营销、销售、定价、物流、合规和欺诈检测。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第3张

不过,这也为FPGA的传统架构带来了不小的挑战。因为市面上有各种AI算法(如下图),基本上底层是矩阵层,用高精度浮点运算,但是算法的变化趋势是:精度/位数降低,从浮点改为定点,原因是为了把运算的复杂度降低,从而降低功耗。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第4张

数据加速有其特点,通常要有三要素:高算力,高效、丰富的存储缓存能力,高效、大带宽的数据运送能力。为此,FPGA芯片需要改进架构,以满足数据加速的需要。

2、Achronix的7纳米FPGA架构

近日,Achronix宣布推出突破性FPGA——Speedster7t,采用7纳米工艺、TSMC流片,主要针对AI/ML(机器学习)和高带宽网络应用。为此,公司总裁兼CEO(首席执行官)Robert Blake向电子产品世界等介绍了新架构。

据悉,Speedster7t研发了三年。该公司至今已有十余年历史,此前,已推出了三代FPGA。不过,为了应对AI挑战,Speedster7t芯片的设计团队重新设计架构,提出了兼具FPGA灵活性和ASIC高性能的新一代FPGA(如下图)。

亮点如下。

*新的NOC(片上网络)路由架构;

*新的机器学习处理器(MLP);

*最高速度接口,例如最新的第五代PCIe和400 Gbps以太网

*是第一家内嵌GDDR6高带宽内存单元的FPGA公司。

2.1 MLP

AI/ML需要矢量矩阵乘法,而传统的带DSP块的FPGA的性能有限(如下图左),新的MLP可带来更高的性能(如下图右)。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第5张

另外,传统FPGA的数字滤波器也不适合(如下图左),新的Speedster7t采用了矢量矩阵乘法。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第6张

再有,新一代的Speedster7t MLP采用了专为AI/ML优化的数学块(Math Block)(如下图)。具有四个特点,①高密度乘阵列:每个MAC( 乘累加)支持最多32个乘法器,驱动可变精度的加法和累加器,有浮点MAC和整点MAC。②紧密相邻的缓存块:大块RAM为72Kbits,寄存器文件是2Kbits。③通过运算和内存级联功能,可以实现更复杂的算法,而无需使用FPGA布线资源。④支持多数字格式,包括浮点、整点和自定义格式。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第7张

2.2 内存层次结构和带宽

内存在FPGA fabric(逻辑功能块)中:每6个输入LUT(查找表)中有2个寄存器,每个块RAM中有72 Kbits。

率先采用GDDR6。

具有DDR4/5接口。

2.3 更高速率接口

采用1~112 Gbps SerDes(串行收发器),有固化的以太网结构,硬化的第五代PCIe。

2.4 创新的二维片上网络(NOC)

像叠加在FPGA互联城市街道系统上的高速公路一样,NoC支持片上处理引擎之间的高带宽通信。例如,有的做图像处理,有的做数据库交流等,有了NOC,可以有效地做起来。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第8张

那么,一家友商的高端FPGA中也有高速公路架构,NOC的特点是什么?Robert称速度更快,是市面上产品的十倍。

值得指出的是,NOC的外围(如下图的大黄框)是购买的IP,但是内部的构造是Achronix自己设计的。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第9张

如何为400G以太网传输提供所需的频率?通常采用打包方式。传送速度需要足够快,以确保来得及装包。不过,包有大有小,例如视频包较大,大包会降低效率,使得包之间有空的空间。

因此,传统FPGA不能在任何400G以太网总线带宽下运行得足够快(如下图)。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第10张

Speedster7t采用了分成多路传输方法(如下图)。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第11张

3、Speedster7t产品家族

此次发布的新芯片,预计2019年第四季度会提供样片和加速卡,2020年量产。不过,相关的ACE软件工具有很多创新,现在就可获得。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第12张

4、创新性的商业模式

众所周知,FPGA业有两大巨擎,都有35年左右的历史,专利和产品遍布。Achronix作为一家只有十余年历史的公司,必须要另辟蹊径。为此该公司定位于高端FPGA,主要应用领域是高性能数据加速,诸如高性能计算和网络处理加速等。

不仅是上述的技术创新,该公司还有独特的商业模式:既提供FPGA芯片,也有FPGA IP授权等业务,其IP产品——Speedcore eFPGA IP已于2016年推向市场,并于去年底推出了最新的第四代Speedcore。

Robert十分看好FPGA IP授权的前景,认为未来可能越来越多地用于ASIC,例如RF芯片是否也可以变成FPGA?这看起来似乎不可思议,但就像CPU界,二三十年前,没人把CPU放进SoC中,而现在很常见。

现在FPGA芯片的营收占公司的比例最大,但IP授权发展速度最快。

FPGA促进AI发展,2019-2023年AI用FPGA将增长约3倍,第13张

5、评论——创新对小公司更加重要

Achronix公司的第一代FPGA产品是与Intel达成了协议,采用当时Intel最先进的工艺——22nm生产,型号为Speedster22i,意味着22nm、Intel流片。当时震动了业界,一方面人们不相信FPGA业最新工艺产品将被一家小公司做出,同时也发现Intel要涉足代工业务。

当时很多客户虽然喜欢这家小公司的前沿产品,但不太放心,Achronix安慰说:“你可以不相信我,但你总不会不相信Intel啊!只要有Intel在,Intel就可以给客户流片。”

没想到几年后,FPGA巨头——Altera被Intel收为旗下。Achronix又转到TSMC去流片。第四代产品叫Speedster7t,意味着7nm、TSMC流片。

而且Achronix还开辟的了新业务——IP授权模式,发展良好。

这让大家再一次领略到初创公司在夹缝中生存时,创新的重要性。

此次FPGA架构的创新令人眼界大开,例如有些功能友商已有,Achronix的性能更高;有些架构和功能是Achronix首创的,专为AI/ML和高带宽应用打造。

6、Achronix官方新闻稿如下

Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

· 全新Speedster7t系列产品专为机器学习市场和高带宽网络应用而进行了优化

· 创新架构和ACE软件工具为要求更高性能和更短设计周期的设计提供了全新范式

· Speedster7t器件采用台积电(TSMC)的7nm FinFET工艺制造

美国加州圣克拉拉市, 2019年 5月 21日—基于现场可编程门阵列(FPGA)的硬件加速件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor CorporaTIon)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求。Achronix的Speedster®7t系列基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。

Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。

随着人工智能/机器学习的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。

“我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。”Achronix Semiconductor总裁兼首席执行官Robert Blake表示:“Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。”

在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI / ML应用、网络处理和存储。

Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。

“Achronix全新的Speedster7t FPGA系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据,” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak说道。“通过将数学函数、存储器和可编程性整合到其机器学习处理器中,再结合交叉芯片、二维NoC结构,从而形成了消除瓶颈和确保整个器件中数据自由流动的绝佳方法。在AI / ML应用中,内存带宽就是一切,Achronix的Speedster7t在这一领域提供了令人印象深刻的性能指标。”

为计算性能进行了高度的优化

Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。

MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-OperaTIons Per Second)。

世界级的带宽

高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。

“美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”

除了这种非凡的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。

超高效率的数据移动

来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。

通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

针对安全性至上和硬件确保应用的安全防护功能

Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。 此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。

经验证的、可向低成本ASIC转换的途径,用以满足大批量需求

Achronix是唯一一家既提供独立FPGA芯片又提供Speedcore™嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。

责任编辑:gt

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2484340.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-04
下一篇 2022-08-04

发表评论

登录后才能评论

评论列表(0条)

保存