去年我们报道过,腾讯成立了一家新公司,发力AI芯片。时隔一年,其庐山真面目乍现。经过半导体行业观察多方求证,我们了解到, 目前腾讯有一个大概50人规模的团队在做芯片,其AI芯片已经流片了 。如今AI领域已经成为世界 科技 巨头争夺的制高点,各大云厂商都已经陆续交出了自家的定制芯片,诚如百度的昆仑芯片、阿里含光、亚马逊、谷歌、微软等等,他们能有什么坏心眼?他们纯粹是为了得到更便宜或者是比第三方性能更好的芯片。随着定制芯片愈演愈烈,除却芯片厂商本身,谁还将从中获利?
我们今天所知道的基于单元的ASIC业务诞生于20世纪80年代初,是由LSI Logic和VLSI技术等公司率先开创的。如今这一趋势发展更加迅猛,定制芯片市场变得大众化。突然之间,任何有远见和合理预算的人都可以制造定制芯片。其结果是半导体技术在各种定制应用中无处不在,产品变得更小、更智能、更复杂。尤为代表的就是云计算厂商们,现在几乎全球所有的云厂商都进入了造芯的行列,而且都在优先考虑定制设计。这是一场芯片界豪华的盛宴,一场属于云厂商独飨的盛宴。
其实在国内BAT造芯行列,腾讯是相对落后的一员。国内如百度早在2010年就启动了FPFA AI加速项目,2018年发布了昆仑芯片,如今其昆仑1已出货2万片,而且昆仑2也将在今年面世。鸿鹄芯片的表现也不斐,这两年,搭载鸿鹄芯片的小度更是占据了智能音箱出货量的头把交椅。
阿里巴巴虽然自2015年才开始与中天微合作开发云芯片,但是阿里的造芯车轮却走的飞快。收购中天微,将其与达摩院合并成为平头哥半导体,先后交出玄铁910和含光800芯片两份答卷,打造端云一体全栈产品系列。再者其投资的芯片企业也是涉猎广泛,几乎将AI芯片初创企业一网打尽。
关于腾讯,我们都知道,其投资了AI芯片公司燧原 科技 ,而且已经连续投资了4轮,可见对燧原 科技 的看重。燧原 科技 的表现也着实不错,它只用了18个月便完成了研发,并一次性流片成功,实现从0到1的突破,并且是原创芯片架构,原创指令集。其实阿里巴巴一开始也是先入股投资中天微,后来将其收购了,这点如果放到腾讯身上来看,腾讯收购燧原 科技 也不失为一个芯片自研的捷径。
不过国内云厂商造芯的策略在某些程度上还是在仿照亚马逊等国外厂商的打法,让我们再来看看国外这些云厂商的芯片研发思路。
在国外云厂商中,尤以亚马逊走的最前列。亚马逊在2015年收购了以色列的一家小型芯片设计商Annapurna Labs,自那时起,便开始了漫漫芯片长征路。来自Amazon和Annapurna Labs的工程师制造了Arm Graviton处理器和Amazon Inferentia芯片。其一开始研发的Graviton芯片最初仅在特殊情况下使用,但现在其已经可以与传统上用于数据中心的英特尔芯片相媲美,这标志着该行业的潜在转折点。
如今,在迈向控制其关键技术组件的重要一步中,亚马逊正在开发网络芯片,为在网络上传送数据的硬件交换机提供动力。据说这些定制芯片可以帮助亚马逊改善其内部基础设施以及AWS,还可以帮助其解决自身基础架构中的瓶颈和问题,特别是如果他们还定制构建在其上运行的软件时。
微软已经为Azure数据中心及其HoloLens耳机创建了芯片设计。最近其在以色列悄然开设了一个芯片开发中心,投入到网络芯片等产品的研发。微软在以色列开发的有趣产品之一是SmartNIC,它是一种智能网卡,可加快公司数据中心服务器中的数据传输速度。该卡本身可以承担一些必要的任务,从而减轻了服务器中央处理单元的负担。Microsoft当前使用Mellanox的SmartNIC产品。但是它的长期目标是用自己的产品替换那些产品。
Google于2016年宣布了其首个定制机器学习芯片Tensor Processing Units(TPU)。Google目前正在提供第三代TPU作为云服务。Google这些年越来越重视芯片,已聘请英特尔前高管Uri Frank来领导其定制芯片部门。定制芯片一直是Google构建高效计算系统战略不可或缺的一部分。此外,设计定制服务器芯片将有助于谷歌云与微软Azure和AWS竞争。
这些 科技 巨头自研芯片的这种趋势在一定程度上反映出,目前的 科技 巨头与过去的数据中心运营商有多么不同。过去的数据中心运营商没有资源投入数亿美元设计自己的芯片。现在定制芯片的激增可以进一步降低先进计算产品的成本并引发创新,这对每个人都有利,不止他们自己,还有为之提供服务的厂商们。
云厂商陆续加入定制化芯片开发这个新行列,将衍生出更多的业务需求。那么,所有的ASIC资金将流向何方? 这其中明显的受益者就有芯片设计服务、EDA/IP需求、代工需求等等,尤其是那些耳熟能详的知名大厂商,然而还有一些隐藏不被大家熟知的设计服务业的受益者 。总而言之,处于这些需求赛道中厂商们都可能从定制芯片项目中获利。
首先,这些造芯新进者缺乏半导体设计相关的积累,势必会路生。因为芯片开发流程众多,包括产品定义、前端电路设计、后端物理实现、制造工艺、封装等多个环节,而且还常常需要组合多种不同功能的IP,使得设计难度进一步加大,并不是所有IC设计公司对这些技术都有深入的了解。于是就需要设计服务厂商的帮助。
在这其中,如博通、Marvell、联发科、Socionext(富士通和松下的LSI业务组合)等提供设计服务的公司将成为明确的受益者。尤其是博通,据了解,国内外大多数知名的厂商都在使用博通的设计服务。博通在全球芯片设计服务方面都占据很高的比例。
JP Morgan分析师Harlan Sur指出,博通不只协助设计芯片,也提供芯片生产、测试、封装的关键知识产权。博通已经在网络设备和无线芯片领域拥有大量业务,每年可能从谷歌和其他公司获得高达10亿美元的收入,用于制造运行服务器的定制芯片。博通一直默默协助Google TPU研发生产,据外媒报道,谷歌的第四代TPU芯片也已获得博通的服务设计,并开始与Alphabet旗下的谷歌设计第五代处理器,该处理器将使用更小的5nm晶体管设计。
始于谷歌,博通现在也在帮助Facebook,微软,Ericsson,诺基亚,阿里巴巴,SambaNova(斯坦福大学学者组建的初创公司)和其他大型公司提供了定制芯片,可用于多种用途。
Marvell的ASIC定制业务也越来越庞大。2019年5月,Marvell也宣布与格芯已达成协议,将收购格芯专用集成电路(ASIC)业务Avera Semiconductor。据悉,该业务单元帮助芯片设计师研发全定制芯片中的半定制芯片。Marvell希望通过面向5G运营商,云数据中心,企业和 汽车 应用的新5nm产品来撼动定制ASIC芯片市场。
另一方面,Marvell几年来一直在销售基于ARM技术的称为ThunderX的芯片家族。在向微软和其他公司销售这种芯片数年之后,Marvell现在被要求为微软定制一个版本,Sur相信,这是一款云计算芯片。而且微软正在与Marvell合作开发其下一代ThunderTh3(TSMC 7纳米)项目。
联发科早在2011年就开始提供ASIC设计服务,这几年也加强了ASIC设计服务的业务。2018年初,联发科正式宣布大力拓展ASIC设计服务业务,服务对象主要面向系统厂商和IC设计公司。联发科ASIC设计服务部门是一个独立部门,据悉,其ASIC设计服务最先看好的就是向产业链上游芯片设计板块渗透的互联网巨头们,而这些互联网或终端巨头引导着上游芯片业的走向,也占据着产业链整体利润的大头儿。这些对于未来的IC设计服务业务来说,具有很大的吸引力。
创意电子(GUC)是一家客制化IC服务厂商,背靠第一大股东台积电,其封装技术较为先进。创意电子独特地结合先进技术、低功耗与内嵌式CPU设计能力,且搭配与台积公司(TSMC)以及各大封测公司密切合作的生产关键技术,适合应用于先进通讯、运算与消费性电子的ASIC设计。
世芯电子(Alchip)亦从事ASIC服务。据其官网介绍,世芯电子能专精、快速交付最先进的ASIC方案给客户,在16纳米、12纳米、7纳米等节点制程技术上其皆是最快成功实现的业者,拥有可靠的实证纪录。
科创板上市公司芯原微电子(上海)股份有限公司(芯原股份)是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。据其官网介绍,芯原在图形处理器、神经网络处理器、视频处理器等方向有丰富的IP组合。
摩尔精英(MooreElite)则为客户提供从芯片定义到产品实现的全流程设计服务,与多家IP供应商和十几家晶圆代工厂紧密合作,为客户打造一个全面的设计云平台,基于长期打磨验证的设计流程和方法学,在边缘AI、云端大数据训练、消费电子、工业系统、网络计算SoC等不同应用领域有多年的技术积淀和可产品化的解决方案。
中国2000多家芯片公司,大多在摸着石头过河,可以说,这是一个非常有潜力的市场,据Gartner参考文献预测2020年ASIC市场将约为$ 27B。专注的高端ASIC供应商将带来巨大的商机。
除了芯片设计服务,这些芯片厂商大多使用Arm的IP,ARM可通过使用其IP开发定制处理器来收取许可和特许权使用费收入。据Axios的一篇报道,谷歌正在研发一款处理器,该处理器将为其2021 Pixel 手机和未来的chromebook提供动力。这款代号为Whitechapel的处理器据称拥有8颗ARM CPU内核,采用了三星的下一代5纳米制造工艺,并包含用于提高谷歌助手性能的专用电路。
定制芯片还要一些EDA/IP厂商来提供辅助性芯片设计服务,Cadence以及Synopsys毋庸置疑的可从中获利。早在2018年,Cadence就与Google,Microsoft,Amazon合作开发基于云的EDA工具,这些工具可以在云中运行,并且可以提供高水平的峰值性能。Synopsys也与Google Cloud合作以广泛扩展基于云的功能验证。
而所有这些芯片的设计开发,对代工厂来说也是一大好消息。诸如台积电和三星等芯片代工厂已经使从事定制芯片项目的 科技 公司能够轻松访问尖端的制造工艺。台积电已在生产谷歌的TPU和微软的HPU等芯片。去年11月,据日经亚洲报道,台积电正在与Google和AMD合作开发一种新的芯片封装技术3DFabric,该服务包含一系列3D硅堆叠和封装技术。预计首批SoIC小芯片将在2022年投入量产。台积电希望向其主要客户提供其先进的后端服务。
台积电此举当然不是在试图取代传统的芯片封装厂商,而是旨在为金字塔顶端的那些高端客户提供服务,以便笼络住财力雄厚的芯片开发商。当年台积电凭借封装服务拿下了苹果的大单,直到现在,台积电的大部分芯片封装收入仍来自苹果。如今在云计算任务比以往更加多样化和苛刻的时代下,定制芯片对高端封装的要求更高。如果能为谷歌、亚马逊等这些厂商提供高端服务的话,或许将是另外一笔大收入。
不止云厂商,还有苹果的M1芯片和特斯拉的FSD芯片等等,ASIC芯片已是大势所趋。设计ASIC芯片需要大量的资金投入,并且需要频繁更新以确保采用新技术和制造工艺。 科技 巨头将为这项技术而战,ASIC服务商们也不轻松。
因此即将到来的亚马逊云科技中国峰会让我充满了期待,这也是我所知道的第一场线下的顶级科技峰会。 今年的会议总共分三个场次,分别是7月21-22日在上海世博中心,8月19-20日在北京国家会议中心,以及9月15日的深圳大中华喜来登酒店。当前,支持数据存储、人工智能和多元化内容的工作负载正以前所未有的速度迁移到云,数据中心服务器市场高速增长。不过,目前大多数云基础设施仍在使用30年前的x86架构处理器技术,而对高性能、高能效和更低的总拥有成本的需要,加快了非x86架构处理器的发展,Arm处理器正在成为这一进程的主力,一些相关公司正在引人注目。创立于2018年的Ampere Computing是其中颇具代表性的一家服务器芯片公司,该公司目前主推产品是号称全球首款云原生处理器的Ampere Altra,该处理器内核基于64位Arm处理器,专为云定制,Ampere Computing强调其具备可预测性、可扩展性和高性能。
据Ampere Computing首席产品官Jeff Wittich介绍,作为云原生通用处理器,Ampere Altra可在云环境下运行所有应用。从Web服务器到数据库到缓存解决方案,再到视频编码,甚至AI推理,Ampere Altra在性能上超越传统x86处理器3倍之多,在性能功耗比上领先近4倍。
Ampere Altra针对云工作负载特性而进行了一些设计,例如该处理器每个内核仅运行一个单线程,并保持一致的高频率,因此避免了因服务器上多个用户而导致的性能不佳的问题。
在利用率方面,Ampere Altra可以将内核数扩展至128核,并为每个核提供大容量低延迟的专用缓存。借助智能高带宽mesh互联结构,所有高性能核都连接在一起,打破了传统的CPU在需求增加时会产生递减回报的使用瓶颈。Ampere Altra采用先进的DDR和PCIe技术设计,可实现最大容量,扩展内存和IO的带宽。此外,所有必要的服务器级RAS、可管理性和平台安全功能均可实现横向扩展部署,并为客户提供“开箱即用”的体验。
Ampere Altra系列有两个产品,其中Ampere Altra内置80个Armv82核,频率为33 GHz;Ampere Altra Max则内置128个Armv82核,频率为30 GHz,两款产品都支持128通道高速PCIe Gen4和8 72 ECC保护的DDR4 3200内存。
在AI推理上,Ampere Computing也正在推进部署。基于Ampere Altra的AI方案支持TensorFlow、PyTorch和ONNX框架。其硬件支持原生FP16数据格式,与FP32相比,速度提高了近2倍,且大多数AI模型几乎没有精度损失。该公司提供了一个易于使用的Docker容器,其中包括计算机视觉和自然语言处理模型示例和基准,以使开发人员能够快速入门。
一项MLPerf的测试显示,Ampere AI优化框架+Ampere Altra Max的组合,使用FP16时,吞吐量比AWS Graviton高出5倍,比x86竞争产品高出2倍以上。
在另一项面积功耗比的测试中,Ampere Altra的单核功耗比传统CPU低67%以上,其32核处理器的功耗比同等的x86 CPU低 46倍,性能高出2倍。得益于此,Ampere Computing开辟了其他竞争对手无法涉足的新领地—— 汽车 自动驾驶,他们正在和通用 汽车 旗下自动驾驶子公司Cruise进行相关合作。
Ampere Altra得到了市场积极的反馈:虚拟主机平台Plesk通过甲骨文云搭载Ampere Altra,仅第一个月就推出了1000多个实例,实现了有史以来最快的产品推广速度。
微软最新的Azure虚拟机也采用了Ampere Altra,该虚拟机系列包括通用Dpsv5和内存优化的Epsv5虚拟机,微软声称这些虚拟机的性价比比基于IBM x86的虚拟机高出50%。
其他终端用户,如红牛车队、GenyMobile、墨尔本大学、布里斯托尔大学和耶拿大学,也都在相关云环境应用中采用了Ampere Computing的处理器。
目前,包括微软、甲骨文、腾讯、阿里、Equinix Metals、CloudFlare、京东、优刻得、Hetzner等众多公司在他们的服务器中使用Ampere Computing的方案和产品,全球已有40多个服务器平台支持Ampere Altra,7家全球最大的超大规模数据中心正在部署该公司产品。
其中,腾讯云推出了基于Ampere Altra处理器SR1的实例。阿里云不仅推出了基于Ampere Altra处理器的c6r和g6r实例,还推出了基于Ampere Computing处理器的手机云 游戏 服务。京东也推出了两款基于Ampere Altra处理器的实例,一款用于计算、一款用于存储。
除了云服务提供商,Ampere Computing同ODM和OEM服务器业务的合作也在不断扩大,包括富士康、技嘉、浪潮、超微和纬颖等。最新的消息是,Ampere Computing已经开始为特定客户的服务器提供下一代处理器Ampere One的样品。新CPU采用公司自研核(也是以ARM ISA为基础,并且能够与Altra和Altra Max兼容),5nm工艺,支持DDR5和PCIe 50接口。至此,Ampere Computing拥有并行的两大产品家族——基于Arm的Ampere Altra系列和基于自研核的Ampere One。它们分别适用于不同工作负载、细分市场和应用程序。例如为边缘场景设计的32核40W产品,以及为超大规模数据中心负载设计的128核125W产品。
不久前,来自路透社的消息称,Ampere Computing在4月份已秘密申请在美国IPO。在2021云栖大会上,阿里巴巴旗下半导体公司平头哥发布了自研云芯片倚天710。据相关媒体报道,经过半年时间的准备,阿里云已经基于该芯片向客户提供了新的实例。不过目前要试用该实例,需要得到阿里云的邀请,名额有限。
倚天710采用了5nm工艺制造,单芯片容纳了600亿个晶体管。其配备了128个基于Armv9架构的内核,频率最高可达32GHz,并与八通道DDR5-4800内存配对,以提供足够的数据传输带宽。倚天710支持PCIe 50规范,拥有96个PCIe 50通道,用于存储和各类型加速,可以适应不同应用场景的需求。
阿里云为倚天710开发了专门的Panjiu服务器,为针对性的AI工作负载而设计,而且还可以用于高性能存储应用。目前阿里云通过名为g8m的d性计算服务(ECS)实例类型来进行测试,用户可以使用ecsg8mxlarge虚拟机预览他们的工作。阿里云没有透露该实例的性能,也不清楚试用期什么时候结束,或者什么时候才会推向其他用户。
近年来,不少云服务供应商都采用Arm架构定制自己的芯片,比如全球最大的云计算提供商AWS,在2018年推出了Graviton系列自研芯片。传言去年12月份最新的Graviton3使用了Armv9架构和Neoverse N2内核,支持DDR5内存,此外AWS还推出了自研的云端推理芯片Trainium,用于训练深度学习模型。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)