显然,通过收购的方式,是加快数据中心芯片布局的方式之一,而在这背后,也预示着,这四大芯片巨头决战数据中心的步伐也加快了。
根据IDC的预测显示,2015年到2025年,数据将以每年25%的速度增长。这些数据的增长带动了云端计算和边缘计算等市场的兴起,他们的增长也拉动了数据中心市场的成长。由此,芯片巨头们也在数据中心市场展开了布局。
英特尔是全球最大PC和数据中心服务器CPU制造商,2017年初他们更是将其以“PC为中心”的战略转移到“以数据为中心”的业务中,从2017年初他们确立了这个战略后,到了2019年,数据中心业务便表现出了较好的成绩。到2020年,其全年财报体现出以数据为中心的转型取得了显著进展,数据中心业务呈迅猛发展态势——2020年相较2019年增长11%。
也因此,英特尔已经将以数据为中心业务的总体潜在市场规模由2021年的1600亿美元调整为2022年的2000亿美元。这将是公司 历史 上最为重大的机遇所在。CPU是英特尔在数据中心市场发展的基石,在此基础之上,英特尔新任CEO帕特·基辛格也在今年提出英特尔2023 CPU产品路线图——面向数据中心的Granite Rapids,我们将采用英特尔7纳米制程工艺生产计算芯片。
AMD是英特尔在CPU领域的竞争对手之一,凭借着 EPYC系列产品,AMD再次迎来其高光时刻,同时该系列产品也为AMD进军数据中心市场带来了希望——根据Mercury Research的数据显示,经过长达六年的重返数据中心的争夺战,到2021年第一季度,AMD的X86处理器在数据中心的销售份额达到了115%。
数据中心市场的增长也为AMD的营收带来了提升,从其2021年第一季度显示,AMD营业额同比增长93%,净收入增长超300%,数据中心营业额增长超一倍。此外,根据AMD总裁兼首席执行官苏姿丰博士Computex 2021时的演讲显示,今年还将会有100多款各大厂商的搭载EPYC处理器的服务器平台问世,以及400多个基于EPYC处理器的实例。
这也是Arm服务器芯片在数据中心市场获得契机的原因之一。其于去年推出的ThunderX3 也是针对云计算和HPC高性能运算市场中的特定工作负载而设计,公司希望通过 Marvell 的差异化优势为最终客户带来更高的性能成本比和性能功耗比优势。
与上述三家芯片巨头不同的是,英伟达则是以GPU上的优势进入到数据中心市场。从英伟达的财报中看,数据中心市场的发展已经成为了他们营收当中重要的一部分。近几年,英伟达的数据中心业务的表现就开始逐渐露出锋芒——2021财年第一季度其数据中心业务首次达到了10亿美元,2021财年第二季度当中,其数据中心业务收入达到175亿美元,该项业务的收入占总营收的比重达到45%,首超 游戏 业务,创 历史 新高。
但随着数据中心市场的成长,仅凭单一的CPU或者是GPU都难以支撑这个市场的发展。因此,这四大芯片巨头开始向更多的领域做拓展——原来在CPU领域有着优势的企业开始向GPU、FPGA等领域进军,而GPU企业在在试图向多元化的方向发展,于是,我们看到了,这四大芯片厂商在数据中心市场的催化下,开始出现了交集。
英特尔曾在2018年提出XPU异构愿景,既由标量(对应CPU)、矢量(对应GPU)、矩阵(对应ASIC)、空间(对应FPGA)组成的架构,可以进行多种架构组合。英特尔认为,必须在CPU的基础上加入并完善GPU、FPGA、AI芯片、视觉处理芯片等不同类型的计算架构,组成一个有机的整体。
而这也是他们能够在数据中心市场持续发展的动力之一,因此,他们也针对这个愿景进行了布局,在自研方面,英特尔于去年11月正式发布其全新服务器GPU,即首款数据中心的独显产品。
在收购方面,英特尔于2015年完成了对全球第二大FPGA 厂商Altera的收购,2018年收购无晶圆厂eASIC开始向Chiplet发展,2019年四月收购为FPGA提供IP和定制解决方案的供应商Omnitek,6月,又收购了网络交换芯片厂商Barefoot(该收购旨在解决数据爆发式增长的问题,这些海量数据激发了对分析这些数据的计算能力的需求,也刺激了对在数据中心内交换这些数据的联网系统的需求),2019年还对以色列数据中心AI芯片制造商Habana Labs进行了收购(虽然Habana独立运营,但该笔收购也加强了英特尔在数据中心人工智能产品上的实力)。
在英特尔重返独立显卡之前,AMD是业内唯一一家既能做高性能x86 CPU,也能做高性能GPU的公司。而随着新的竞争的到来,AMD也对其GPU领域的发展做出了新的规划——AMD在其2020年财报会议上宣布,公司将在通用化GPU的基础上,将其产品定位成专注于 游戏 优化的RDNA和专注于运算导向的CDNA。
在对数据中心的布局上,最值得一提的是,AMD将对FPGA领域的龙头赛灵思的收购,这也是他们布局数据中心市场的重要一步——在拥有CPU 和 GPU 产品后,赛灵思可以为他们布局数据中心市场提供加速能力。
从英伟达方面来看,这是一个市值曾一度超过英特尔的巨头芯片公司,而市场对于他的看好,也来源于他们在数据中心这一市场的布局。而他们也开始突破GPU领域市场,开始向CPU市场进行发力——在今年4月,英伟达推出其基于Arm的数据中心CPU,据英伟达介绍,该芯片是专为大规模神经网络工作负载设计的,预计将于2023年在英伟达的产品中使用。
而针对数据中心方面的布局,英伟达也同样逃不过用收购的方式来进行发展。这其中包括,他们以69亿美元收购Mellanox获得的网络技术,与计划用400亿美元的价格收购Arm。
由于英特尔、AMD、英伟达针对数据中心的布局,使得他们的产品形成了一定的竞争关系,也被行业成为是数据中心市场的三大巨头。但在他们的发展中,尤其是英伟达以Arm架构为基础推出了CPU之后,我们也看到了Arm架构对于数据中心市场的冲击力,而这就不得不再提一下Marvell,这个在决战数据中心市场中一个不可忽视的力量。
除了他们所推出的Arm服务器芯片以外,在数据中心市场方面,Marvell 凭借着广泛的存储、计算、 安全与网络产品组合带来了同类最佳的构建模块与架构,以优异的总拥有成本满足了基础设施需求,在数据中心市场而占有一席之地。
这针对这些领域的布局,marvell也进行了多笔的收购,包括在2017年以约60亿美元收购Cavium,2019年收购以太网网络连接产品领域的Aquantia、格罗方德旗下Avera半导体子公司。2020年,他们还收购了光芯片厂商Inphi。近期,Marvell还宣布将收购供应云服务器以及边缘数据中心的网络交换芯片等产品的 Innovium。这些收购都将直接或间接地加强其在数据中心市场的发展。
如果说,向更多的领域做拓展,是这四大芯片厂商为数据中心市场的发展而打下基础。近期,这四大芯片厂商又不约而同地将目光投向了DPU市场。
在英伟达看来,数据中心路线图包括CPU、GPU和DPU这三类芯片。英伟达也在今年早些时候的博客中表示:“DPU(即数据处理单元)已经成为以数据为中心的加速计算模型的第三个成员,英伟达首席执行官黄仁勋在一次演讲中说:“这将代表未来计算的三大支柱之一。”这三者之间,CPU用于通用计算,GPU用于加速计算,而DPU在数据中心周围移动数据,进行数据处理。
因此,除了上文我们提到的,他们在CPU、GPU领域的成就外,他们也针对DPU这一市场进行了布局——去年英伟达发布了第一款DPU产品BlueField-2,今年的GTC上又发布了BlueField-3,BlueField-3会在明年上半年推向市场。
英特尔则在今年推出了名为IPU产品,按照英特尔的说法,英特尔官方的说法,IPU是一种可编程网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。在这种介绍下,也有人认为,这与当下主流的DPU作用类似。
而英特尔之所以能够在DPU领域取得成绩,这也离不开当时收购Altera。从DPU的本质上看,根据THENEXTPLATFORM的分析报告显示,在2020年,SmartNIC正在演变成DPU。SmartNIC可以通过从服务器的CPU上卸载网络处理工作负载和任务,提高云端和私有数据中心中的服务器性能。而针对多种SmartNIC的方案来说,由于FPGA是可重编程的,因此利用FPGA实现的数据平面功能可以任意并且实时地去除和重新配置,采用这种设计可以将网络功能提速几个数量级,因而,也被视为是数据中心市场发展的动力之一。
而赛灵思也是SmartNIC领域中的杰出玩家,据了解,该公司于2019年秋季收购了Solarflare Communications,并且Solarflare自2012年以来一直在构建基于ASIC和FPGA的NIC进行电子交易。由此来看,如果AMD收购了赛灵思,那么对于他们发展DPU来说也大有裨益。
除此之外,近期,Marvell也发布了一款DPU产品,根据半导体行业观察此前的报道显示,Marvell将推出OCTEON 10系列DPU,这是一个全新的SoC系列,建立在TSMC的5nm工艺节点之上,在这个处理器上,将首次展示Arm的新型基础设施处理器——Neoverse N2。根据公开消息显示,这将是Marvell第一个基于TSMC N5P工艺的芯片设计,实际上也是同类中第一个采用该工艺的DPU。
但对于未来数据中心市场的发展而言,这个市场可能会由这些芯片巨头厂商所主导,但并不意味着其他厂商没有机会,一些细分领域的巨头和初创公司也将会是这个市场中另外一股不可忽视的势力。
「初创公司要贸然打入云端市场,简直就是自寻死路」。
长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。
但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。
作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。
2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。
与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。
一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。
机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。
这回有了中文名
据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。
在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。
在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。
据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。
对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。
「让英伟达难受」
在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。
据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。
对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。
功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。
但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」
据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」
与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」
核心技术解密
这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。
它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。
整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。
基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。
但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。
而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。
此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。
综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。
那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。
参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。
面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。
李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。
谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。
王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。
他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」
综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。
实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。
当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……
而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)
此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。
据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。
「云芯」之争一触即发
尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。
整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。
而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。
据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。
可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。
(应采访者需求,文中李立、王一均为化名。)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)