随着近几年天河2号和神威太湖之光相继在全球超级计算机公布的TOP500刷榜。在超级计算方面异构计算已经基本取代了同构计算,而且随着Intel着力发展CPU+FPGA,AMD大力研发CPU+GPU,异构计算也将越来越多的进入人们的视野。在国外公司积极布局异构计算的同时,国内公司也不甘落后。日前,中国华夏芯公司宣布,其异构计算处理器IP核已经在硅片上成功实现,并已通过HSA(异构系统架构)一致性测试。公司还宣布了新的机器学习和深层神经网络的开源项目,旨在进一步推动HSA异构计算的发展。
目前,在HSA协会的推动下,异构计算有向越来越多的领域侵蚀的趋势。那么,什么是异构计算?发展前景究竟如何?中国首个异构计算处理器又凭什么在业界处于领先地位呢?
什么是异构计算
同构计算是使用相同类型指令集和体系架构的计算单元组成系统的计算方式。而异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,常见的计算单元类别包括CPU、GPU、DSP、ASIC、FPGA等。异构计算用简单的公式可以表示为“CPU+XXX”。举例来说,AMD着力发展的APU就属于异构计算,用公式表示就是CPU+GPU。
由于术业有专攻,CPU、GPU、DSP、ASIC、FPGA各有所长,在一些场景下,引入特定计算单元,让计算系统变成混合结构,就能让CPU、GPU、DSP、FPGA执行自己最擅长的任务。如果能做到无缝地将运行于CPU之上的通用计算、运行于GPU之上的并行计算、运行于DSP之上或者ASIC/FPGA之上的优化计算整合在一起,就能获得更好的应用性能,更低的功耗等特性,相对于同构计算而言也可能有一定性能优势。
以天河2号的一个计算节点为例。Xeon E5的满载功耗达145W,双精浮点为0.21T Flops,而Xeon PHI功耗300W,双精浮点达1T Flops。
天河2号一个计算节点由2片Xeon E5和3片Xeon PHI,理论双精浮点性能为3.42T Flops,功耗为1190W,理论双精浮点性能与功耗的比值为2.87GFlops/W。相同功耗下使用8片Xeon E5只能获得1696Gflops的理论双精浮点性能,理论双精浮点性能与功耗的比值为1.42GFlops/W。从数据可以看出,在同等功耗下,在使用Xeon PHI加速后,理论双精浮点性能是只使用Xeon E5的2倍。
正是因为异构计算在理论上有着诸多的优势,一些媒体将“CPU+XXX”称为下一代处理器。
在超算上应用广泛
事实上,最近几年曾经在TOP500刷榜,或者排名靠前的超算都采用了异构计算——中国神威太湖之光、美国超算泰坦、中国天河1号和天河2号。
泰坦有18688个运算节点,每个运算节点由1个16核心AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速组成,共计299008个运算核心,属于CPU+GPU。
天河1号使用了14336片Intel Xeon X5670处理器和7168片NVIDIA Tesla M2050高性能计算卡,属于CPU+GPU。
天河2号有16000个计算节点,每个节点由2片Intel的E5 2692和3片Xeon PHI组成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,属于CPU+众核芯片。正在升级的天河2号则将美国的Xeon PHI换成了自主研发的矩阵2000,属于CPU+DSP。
中国首个异构计算处理器属于自主研发
近年来,国家对集成电路产业发展高度重视,在龙芯、申威等老牌设计单位取得累累硕果的同时,又成立了拥有1200亿元人民币的集成电路大基金扶持产业发展,先后与IBM、VIA、高通、AMD合资/合作成立兆芯、宏芯、华芯通等公司,并大力扶持展讯、海思、联芯等ARM阵营IC设计公司茁壮成长。
不过,在上述公司中,除了龙芯和申威之外,大多都对境外技术有一定依赖,有的还成为境外公司的马甲,既不具备造血能力,又只能依赖政府经费生存。可以说,当今开发处理器的公司中鱼龙混杂,真正能做到自主研发、自主可控的少之又少。
就是在业界普遍购买国外技术授权,开发所谓“国产”处理器的大背景下,华夏芯选择了最为艰难的自主研发道路——其处理器的指令集和IP都属于自主研发。
也许很多人从来没有听说过华夏芯这样一家公司,但该公司确实是中国第一家从事异构计算处理器IP核设计的集成电路企业——华夏芯公司是一个定位于全球市场的中国公司,研发团队的来源也是全球化,但是从技术到人才都掌握在华夏芯手中,比如华夏芯的3合1“ Unity”体系架构是其独创技术,在同行业中也处于领先地位。
更难得的是,华夏芯并没有像一些商业公司那样购买ARM指令集,而是公司自主开发的指令集、微结构和工具链。因此,在自主创新能力上,和一些购买ARM 的IP授权开发所谓“国产”CPU的国内厂商有着本质上的区别。
华夏芯公司最近发布了一系列新的IP授权产品,在全球范围授权IP,为客户提供一流的处理器设计技术。所有华夏芯的处理器均支持HSA。对此,华夏芯的董事长李科奕表示,“我们很高兴地看到华夏芯的新IP核通过了PRM HSA一致性测试,面向工业、物联网、高级驾驶辅助系统(ADAS)和嵌入式系统,该IP核对功耗进行了优化并向全球提供许可”。
据了解,华夏芯还是中国唯二的可以对外授权IP的处理器公司(另一家是龙芯),在中国大多数CPU公司还处于购买国外IP做集成的时代,华夏芯能够自己开发IP并且能够对外授权就显得尤为难得。目前,华夏芯的CPU核可以通过IP授权的方式提供给客户,第一款CPU已经在台积电使用28nm HPC制成工艺流片,2016年第3季度提供给潜在客户作为评估或开发之用。
相对于国外大厂有何独门绝技
中国首个异构处理器相对于国外产品最大的特色就是3合1“ Unity”体系架构。本次在硅片上实现的IP核是华夏芯3合1“ Unity”体系架构的首次实现。Unity具有包括图像和视频处理在内的多维信号处理能力。华夏芯美国研发中心的CTO Mayan Moudgill博士表示,“矢量处理长度可依据矢量计算的需求动态设置,最大配置达到64KB,满足各种智能化应用和高性能计算对并行计算的要求,保证了指令架构的稳健性和软件代码的移植性。变长矢量处理单元(VPU)在进行大量数据处理的同时,结合了低功耗、乱序执行流水线等多项先进技术,从而使多个控制线程高效地执行”。
值得关注的是,在华夏芯面向全球发布上述消息2天之后,ARM也发布了与其类似的V8-A的矢量扩展架构(SVE),其技术特征与华夏芯推出的VPU单元极为相似。这说明,真正从事自主创新的国产处理器设计公司完全可以在核心技术上达到国际领先水平,其创新能力要远远优于那些通过IP授权设计CPU的公司,毕竟后者在自主创新的空间上受到授权许可方极其严苛的各种限制。
另外,市场上有很多SOC也集成了CPU、GPU、DSP等计算单元,比如像高通骁龙芯片、华为海思麒麟芯片都集成了CPU、GPU和DSP。那么,华夏芯3合1“ Unity”体系架构和市面上普遍存在的SOC有哪些优势呢?
之前提到的SOC的CPU、GPU、DSP的指令架构不同,微架构不同,工具链不同,是基于多核集成做出来的异构多核芯片,它们往往采用 *** 作系统完成多核、多任务之间的同步与协调,因而会影响效率。在这里特别强调一下,传统的SOC多核编程非常难,虽然在物理上实现了单芯片多核集成,但是在开发习惯和流程上与传统的板上集成系统没有太大的不同,即性能不高、功耗不小、多套工具、多个团队、开发困难、优化更难。
相比之下,基于华夏芯Unity架构的芯片单核已经具备CPU、IVP(image and video processor)、DSP的处理能力,而且是一套指令架构,一套微架构,一套工具链。在做多核扩展、硬件加速和FPGA的整合工作时,华夏芯的Utility体系架构将完全遵循HSA的规范,可以重用HSA的软件生态系统。因此,华夏芯的3合1做法在功耗、成本、性能、软件开发门槛、团队规模等方面都有巨大的优势。
异构计算市场前景如何
异构计算在理论上相对于同构计算拥有很多优势——HSA能够简化芯片结构设计、降低应用编程门槛、缩短项目研发周期、显著提升芯片性能、广泛共享软件生态。有厂家甚至宣传异构计算可以实现任何程序都不必费心考虑不同处理器内核之间的存储差异。但在现阶段,异构计算除了在超算上取得了明显成绩,在其他领域优势并不大。
即便异构计算目前还存在这样或那样的一些问题,但却是非常具有发展潜力的技术。随着技术的进步,电子消费品市场对于高性能并行计算的需求正在爆发性增长,特别是在机器视觉、人工智能、云计算、AR/VR、软件定义无线电以及其他新兴领域,都对异构计算系统有着非常大的需求。而HSA在系统编程方式上的迈进使得一个复杂片上系统能够协调在并行计算上比CPU更高效、更低功耗的GPU、DSP以及硬件加速等计算单元承担大部分繁重的计算工作任务,在上述新兴领域能发挥较理想的作用。
也正是因此,Parmance公司计划与华夏芯在ML-HSA项目上进行合作——该项目面向机器学习和深层神经网络,并针对华夏芯此前发起的开源gccbrig项目进行优化,gccbrig项目为任何支持GCC的平台提供编译(终结转换)功能。
国外巨头也一直着力发展异构计算系统——Intel在去年以167亿美元收购阿尔特拉,发展CPU+FPGA,AMD着力发展的APU也属于异构计算,像Imagination、MTK等一些厂商也在异构计算领域积极布局。可以说,异构计算的市场前景还是值得期待的。
结语
虽然在CPU、GPU、DSP等传统芯片上,中国与西方还有这比较大的差距,但在异构计算处理器上,中国与国际先进水平差距小,局部甚至还处于领先地位,可以说,本次华夏芯成功研发的异构计算处理器则是中国在该领域的有益尝试。
“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。
本文由科普中国融合创作出品,转载请注明出处。
“小散弱”一直是困扰我国集成电路的主要问题之一。2019年这个问题正在得到改善。中国半导体行业协会集成电路设计分会理事长魏少军表示,2019年十大设计企业的销售总和占全行业销售总和的比例首次超过50%,扭转了之前一直下降的局面。而且三家最大通信芯片企业的销售之和超过1000亿元,占该领域销售之和1128.2亿元的88.7%。进入10大设计企业榜单的门槛提高到48亿元,比去年的30亿元,大幅增长了18亿元。中国集成电路设计业拥有若干支航母舰队的状况有望在不久的将来出现。2019年,在一些关键技术上,我国集成电路企业也获得重大突破。9月6日,华为海思在IFA 2019上正式发布麒麟990旗舰芯片,采用全球最先进的7纳米+EUV工艺,实现5G手机芯片的成功开发。8月8日,中芯国际在第二季度财报中披露,14纳米工艺进入客户风险量产阶段,可以贡献有意义的营收,第二代FinFET N+1技术平台已开始进入客户导入阶段,将与客户保持合作关系,把握5G、物联网、车用电子等产业发展机遇。存储芯片实现了初步的布局,长江存储成功投产64层3D NAND,长鑫存储成功投产19纳米DRAM。随着异构计算的发展,先进封装的重要性不断提升,我国在先进封装领域取得进展,长电科技、通富微电、华天科技等逐渐掌握凸块封装、TSV等先进封装技术。在装备材料方面,中微半导体的等离子体刻蚀机进入台积电7nm逻辑器件生产线上海新升的12英寸大硅片开始批量供货。
供给不足矛盾仍旧尖锐
在取得一系列成绩的同时,我国集成电路产业仍然存在诸多不足。首先是集成电路产品种类虽然齐全,但高端核心芯片缺乏。如CPU、存储器和高性能模拟芯片等均存在巨大的缺口。国产存储器虽在2019年实现了初步布局,但尚未形成规模。国产CPU主要集中在党政办公系统的专用市场当中,虽然部分企业已开始尝试进入公开市场参与竞争,但总体上我国芯片尚不能满足市场的需求。正如魏少军指出,“需求旺盛与供给不足”依然是当前面临的根本矛盾。
其次,2019年虽然在一些重点技术领域取得突破,但是整体差距仍然很大,特别是在底层基础领域。从设计业来看,我国的集成电路设计企业依靠制造工艺和EDA工具的进步,实现产品升级换代的现象依然严重。在制造领域,中国大陆企业的制造技术节点,与三星和台积电7nm仍有大概两代的差距。在封测方面,虽然通过自主研发和兼并收购,本土封测厂基本形成先进封装的产业化能力,但占封测总营收比例只有30%,远低于全球水平。在装备材料方面,虽然有部分高端装备与材料进入生产线实现供货,但主要依赖进口的局面仍未改变,产业发展存在瓶颈。
最后,随着我国集成电路产业的快速发展,对高质量的专业人才需求极为迫切。人才问题正在成为制约我国集成电路产业可持续发展的主要瓶颈。《中国集成电路产业人才白皮书(2018-2019年版)》显示,截至2018年年底,我国集成电路产业从业人员规模约为46.1万人,比2017年同期增加了6.1万人,增长率为15.3%,人才供需状况得到一定程度的改善,但整体来看缺口依然较大。
对此,国家集成电路产业发展咨询委员会副主任马俊如分析指出,从我国集成电路领域现有的人才状况来看,虽然经过多年的发展,我国已培养出大批人才队伍,但仍感到人才供给不足。主要问题集中在三个方面,一是高端和领军人才紧缺,二是集成电路专业领域的高校毕业生流失严重,三是人才工程和实践经验匮乏。应积极探索产教融合人才培养新模式,在创新实践中发现人才,在创新活动中培育人才,在创新事业中凝聚人才。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)