随着定制芯片愈演愈烈,除却芯片厂商本身,谁还将从中获利?
去年我们报道过,腾讯成立了一家新公司,发力AI芯片。时隔一年,其庐山真面目乍现。经过半导体行业观察多方求证,我们了解到, 目前腾讯有一个大概50人规模的团队在做芯片,其AI芯片已经流片了 。如今AI领域已经成为世界 科技 巨头争夺的制高点,各大云厂商都已经陆续交出了自家的定制芯片,诚如百度的昆仑芯片、阿里含光、亚马逊、谷歌、微软等等,他们能有什么坏心眼?他们纯粹是为了得到更便宜或者是比第三方性能更好的芯片。随着定制芯片愈演愈烈,除却芯片厂商本身,谁还将从中获利?
我们今天所知道的基于单元的ASIC业务诞生于20世纪80年代初,是由LSI Logic和VLSI技术等公司率先开创的。如今这一趋势发展更加迅猛,定制芯片市场变得大众化。突然之间,任何有远见和合理预算的人都可以制造定制芯片。其结果是半导体技术在各种定制应用中无处不在,产品变得更小、更智能、更复杂。尤为代表的就是云计算厂商们,现在几乎全球所有的云厂商都进入了造芯的行列,而且都在优先考虑定制设计。这是一场芯片界豪华的盛宴,一场属于云厂商独飨的盛宴。
其实在国内BAT造芯行列,腾讯是相对落后的一员。国内如百度早在2010年就启动了FPFA AI加速项目,2018年发布了昆仑芯片,如今其昆仑1已出货2万片,而且昆仑2也将在今年面世。鸿鹄芯片的表现也不斐,这两年,搭载鸿鹄芯片的小度更是占据了智能音箱出货量的头把交椅。
阿里巴巴虽然自2015年才开始与中天微合作开发云芯片,但是阿里的造芯车轮却走的飞快。收购中天微,将其与达摩院合并成为平头哥半导体,先后交出玄铁910和含光800芯片两份答卷,打造端云一体全栈产品系列。再者其投资的芯片企业也是涉猎广泛,几乎将AI芯片初创企业一网打尽。
关于腾讯,我们都知道,其投资了AI芯片公司燧原 科技 ,而且已经连续投资了4轮,可见对燧原 科技 的看重。燧原 科技 的表现也着实不错,它只用了18个月便完成了研发,并一次性流片成功,实现从0到1的突破,并且是原创芯片架构,原创指令集。其实阿里巴巴一开始也是先入股投资中天微,后来将其收购了,这点如果放到腾讯身上来看,腾讯收购燧原 科技 也不失为一个芯片自研的捷径。
不过国内云厂商造芯的策略在某些程度上还是在仿照亚马逊等国外厂商的打法,让我们再来看看国外这些云厂商的芯片研发思路。
在国外云厂商中,尤以亚马逊走的最前列。亚马逊在2015年收购了以色列的一家小型芯片设计商Annapurna Labs,自那时起,便开始了漫漫芯片长征路。来自Amazon和Annapurna Labs的工程师制造了Arm Graviton处理器和Amazon Inferentia芯片。其一开始研发的Graviton芯片最初仅在特殊情况下使用,但现在其已经可以与传统上用于数据中心的英特尔芯片相媲美,这标志着该行业的潜在转折点。
如今,在迈向控制其关键技术组件的重要一步中,亚马逊正在开发网络芯片,为在网络上传送数据的硬件交换机提供动力。据说这些定制芯片可以帮助亚马逊改善其内部基础设施以及AWS,还可以帮助其解决自身基础架构中的瓶颈和问题,特别是如果他们还定制构建在其上运行的软件时。
微软已经为Azure数据中心及其HoloLens耳机创建了芯片设计。最近其在以色列悄然开设了一个芯片开发中心,投入到网络芯片等产品的研发。微软在以色列开发的有趣产品之一是SmartNIC,它是一种智能网卡,可加快公司数据中心服务器中的数据传输速度。该卡本身可以承担一些必要的任务,从而减轻了服务器中央处理单元的负担。Microsoft当前使用Mellanox的SmartNIC产品。但是它的长期目标是用自己的产品替换那些产品。
Google于2016年宣布了其首个定制机器学习芯片Tensor Processing Units(TPU)。Google目前正在提供第三代TPU作为云服务。Google这些年越来越重视芯片,已聘请英特尔前高管Uri Frank来领导其定制芯片部门。定制芯片一直是Google构建高效计算系统战略不可或缺的一部分。此外,设计定制服务器芯片将有助于谷歌云与微软Azure和AWS竞争。
这些 科技 巨头自研芯片的这种趋势在一定程度上反映出,目前的 科技 巨头与过去的数据中心运营商有多么不同。过去的数据中心运营商没有资源投入数亿美元设计自己的芯片。现在定制芯片的激增可以进一步降低先进计算产品的成本并引发创新,这对每个人都有利,不止他们自己,还有为之提供服务的厂商们。
云厂商陆续加入定制化芯片开发这个新行列,将衍生出更多的业务需求。那么,所有的ASIC资金将流向何方? 这其中明显的受益者就有芯片设计服务、EDA/IP需求、代工需求等等,尤其是那些耳熟能详的知名大厂商,然而还有一些隐藏不被大家熟知的设计服务业的受益者 。总而言之,处于这些需求赛道中厂商们都可能从定制芯片项目中获利。
首先,这些造芯新进者缺乏半导体设计相关的积累,势必会路生。因为芯片开发流程众多,包括产品定义、前端电路设计、后端物理实现、制造工艺、封装等多个环节,而且还常常需要组合多种不同功能的IP,使得设计难度进一步加大,并不是所有IC设计公司对这些技术都有深入的了解。于是就需要设计服务厂商的帮助。
在这其中,如博通、Marvell、联发科、Socionext(富士通和松下的LSI业务组合)等提供设计服务的公司将成为明确的受益者。尤其是博通,据了解,国内外大多数知名的厂商都在使用博通的设计服务。博通在全球芯片设计服务方面都占据很高的比例。
JP Morgan分析师Harlan Sur指出,博通不只协助设计芯片,也提供芯片生产、测试、封装的关键知识产权。博通已经在网络设备和无线芯片领域拥有大量业务,每年可能从谷歌和其他公司获得高达10亿美元的收入,用于制造运行服务器的定制芯片。博通一直默默协助Google TPU研发生产,据外媒报道,谷歌的第四代TPU芯片也已获得博通的服务设计,并开始与Alphabet旗下的谷歌设计第五代处理器,该处理器将使用更小的5nm晶体管设计。
始于谷歌,博通现在也在帮助Facebook,微软,Ericsson,诺基亚,阿里巴巴,SambaNova(斯坦福大学学者组建的初创公司)和其他大型公司提供了定制芯片,可用于多种用途。
Marvell的ASIC定制业务也越来越庞大。2019年5月,Marvell也宣布与格芯已达成协议,将收购格芯专用集成电路(ASIC)业务Avera Semiconductor。据悉,该业务单元帮助芯片设计师研发全定制芯片中的半定制芯片。Marvell希望通过面向5G运营商,云数据中心,企业和 汽车 应用的新5nm产品来撼动定制ASIC芯片市场。
另一方面,Marvell几年来一直在销售基于ARM技术的称为ThunderX的芯片家族。在向微软和其他公司销售这种芯片数年之后,Marvell现在被要求为微软定制一个版本,Sur相信,这是一款云计算芯片。而且微软正在与Marvell合作开发其下一代ThunderTh3(TSMC 7纳米)项目。
联发科早在2011年就开始提供ASIC设计服务,这几年也加强了ASIC设计服务的业务。2018年初,联发科正式宣布大力拓展ASIC设计服务业务,服务对象主要面向系统厂商和IC设计公司。联发科ASIC设计服务部门是一个独立部门,据悉,其ASIC设计服务最先看好的就是向产业链上游芯片设计板块渗透的互联网巨头们,而这些互联网或终端巨头引导着上游芯片业的走向,也占据着产业链整体利润的大头儿。这些对于未来的IC设计服务业务来说,具有很大的吸引力。
创意电子(GUC)是一家客制化IC服务厂商,背靠第一大股东台积电,其封装技术较为先进。创意电子独特地结合先进技术、低功耗与内嵌式CPU设计能力,且搭配与台积公司(TSMC)以及各大封测公司密切合作的生产关键技术,适合应用于先进通讯、运算与消费性电子的ASIC设计。
世芯电子(Alchip)亦从事ASIC服务。据其官网介绍,世芯电子能专精、快速交付最先进的ASIC方案给客户,在16纳米、12纳米、7纳米等节点制程技术上其皆是最快成功实现的业者,拥有可靠的实证纪录。
科创板上市公司芯原微电子(上海)股份有限公司(芯原股份)是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。据其官网介绍,芯原在图形处理器、神经网络处理器、视频处理器等方向有丰富的IP组合。
摩尔精英(MooreElite)则为客户提供从芯片定义到产品实现的全流程设计服务,与多家IP供应商和十几家晶圆代工厂紧密合作,为客户打造一个全面的设计云平台,基于长期打磨验证的设计流程和方法学,在边缘AI、云端大数据训练、消费电子、工业系统、网络计算SoC等不同应用领域有多年的技术积淀和可产品化的解决方案。
中国2000多家芯片公司,大多在摸着石头过河,可以说,这是一个非常有潜力的市场,据Gartner参考文献预测2020年ASIC市场将约为$ 27B。专注的高端ASIC供应商将带来巨大的商机。
除了芯片设计服务,这些芯片厂商大多使用Arm的IP,ARM可通过使用其IP开发定制处理器来收取许可和特许权使用费收入。据Axios的一篇报道,谷歌正在研发一款处理器,该处理器将为其2021 Pixel 手机和未来的chromebook提供动力。这款代号为Whitechapel的处理器据称拥有8颗ARM CPU内核,采用了三星的下一代5纳米制造工艺,并包含用于提高谷歌助手性能的专用电路。
定制芯片还要一些EDA/IP厂商来提供辅助性芯片设计服务,Cadence以及Synopsys毋庸置疑的可从中获利。早在2018年,Cadence就与Google,Microsoft,Amazon合作开发基于云的EDA工具,这些工具可以在云中运行,并且可以提供高水平的峰值性能。Synopsys也与Google Cloud合作以广泛扩展基于云的功能验证。
而所有这些芯片的设计开发,对代工厂来说也是一大好消息。诸如台积电和三星等芯片代工厂已经使从事定制芯片项目的 科技 公司能够轻松访问尖端的制造工艺。台积电已在生产谷歌的TPU和微软的HPU等芯片。去年11月,据日经亚洲报道,台积电正在与Google和AMD合作开发一种新的芯片封装技术3DFabric,该服务包含一系列3D硅堆叠和封装技术。预计首批SoIC小芯片将在2022年投入量产。台积电希望向其主要客户提供其先进的后端服务。
台积电此举当然不是在试图取代传统的芯片封装厂商,而是旨在为金字塔顶端的那些高端客户提供服务,以便笼络住财力雄厚的芯片开发商。当年台积电凭借封装服务拿下了苹果的大单,直到现在,台积电的大部分芯片封装收入仍来自苹果。如今在云计算任务比以往更加多样化和苛刻的时代下,定制芯片对高端封装的要求更高。如果能为谷歌、亚马逊等这些厂商提供高端服务的话,或许将是另外一笔大收入。
不止云厂商,还有苹果的M1芯片和特斯拉的FSD芯片等等,ASIC芯片已是大势所趋。设计ASIC芯片需要大量的资金投入,并且需要频繁更新以确保采用新技术和制造工艺。 科技 巨头将为这项技术而战,ASIC服务商们也不轻松。
前段时间,马发文称,腾讯营收和利润增速放缓,他也相信可以换挡创造更高质量的发展,逐步建立包括服务器、 *** 作系统、芯片、SaaS等完整的自研体系
腾讯的变动是好事,但作为 历史 上第三次大的组织调整,我感觉会比前两次变动更难。首先,变革的时间来的有点晚,整个行业的竞争已经非常激烈,错失了先发优势。
其次,相比其他大厂,鹅厂的新能力模式还是需要更多的辅导班,想做的门槛也不低,需要公司耐心爬坡填坑。所以腾讯现在陷入困境,未来能否继续保持优势还是未知数。
腾讯换挡的挑战
腾讯面临的困难不仅仅是研发,在最近的财报中,腾讯的营收不仅停止了增长,净利润也出现了下滑。财报显示,腾讯第一季度实现营收1354.71亿元,同比持平,环比下降6%;净利润234.13亿元,同比下滑51%,环比下滑75%。
非国际财务报告准则(Non-IFRS)下,净利润255.45亿元,同比下降23%,环比上升3%。事实上,腾讯经过这么多年的持续高速增长,今年第一季度净利润大幅下滑并不奇怪。此前,腾讯专注于ToC业务,包括手游《王者荣耀》和微信。
但随着移动互联网的红利退去,想要延续原有的商业模式,就必须进一步拓展海外市场,以寻求市场份额和活水的快速增长,或者在创新产品上加大研发力度。数字经济时代,ToB业务成为互联网平台突破性增长的关键因素,腾讯需要调整原有的商业模式。
如果真的要完成芯片、 *** 作系统、服务器、SaaS的自研,腾讯的R&D费用无疑会高于华为。不过目前阿里加腾讯的R&D费用还赶不上华为。
过去十年,华为在研发方面的投入超过7200亿元。截至2020年底,华为在全球拥有10万+有效专利,其中90%以上为发明专利。
无论是5G网络还是半导体芯片,都已经做到了全球领先,这种技术差距不是短时间能弥补的。
阿里做了自己的阿里云、数据库、risc-v芯片,腾讯基本是从零开始。
幸运的是,腾讯的R&D费用和团队正在不断改善。
据了解,2021年,腾讯R&D投资达到518.8亿元,是2018年的两倍。R&D人员数量同比增长41%,R&D团队持续增长。新增R&D项目6000多个,较2020年增长51%。
腾讯如何换挡?
随着国内互联网流量的高峰,出海成为互联网大公司的关键词之一,腾讯也不例外。
就求变现状而言,必须走向海外,创造利润,反哺国内 科技 研发。越早完成海上业务,越能抢占行业话语权。
在腾讯的财报中,国际市场收入已经成为 游戏 业务的重要组成部分。去年腾讯 游戏 国际市场收入占比26%。今年第一季度,这一收入同比增长4%,至106亿元。
除了加速出海,完善自研生态也是腾讯换挡的必经过程。
芯片方面,面向AI计算、视频处理、高性能网络三大场景,腾讯拥有自主研发的AI推理芯片紫晓、视频编解码芯片沧海、智能网卡芯片凌轩,产品性能业内领先。
同时,腾讯与多家芯片公司深度合作,开发自己的星海服务器。结合云计算丰富的场景,整机性能业界最强,可靠性翻倍。过去一年,星海快速迭代,支持全平台、多场景,规模增长400倍,成为行业增长最快的服务器产品。
与此同时,腾讯SaaS的生态布局不断完善。在千帆的生态中,近百家SaaS厂商GMV超过百万。千帆的企业应用连接器产品不断迭代,帮助企业突破应用壁垒,服务于工业、教育、零售等领域的众多客户。
如果真的做了自研,腾讯就拿到了未来十年的船票。如果不做,腾讯也会面临很大的困难。从这里也可以看出,它没有十几亿用户也可以高枕无忧。
逆风的方向更适合飞行。换挡速度更快的腾讯,基础还是很扎实的。至于能不能成功改变,这个问题还是留给时间吧。
事后想来,芯片验证工程师Lynda觉得进腾讯有点“草率”了。
作为一个在半导体行业工作过多年的资深工程师,Lynda第一次看到腾讯发布芯片岗位需求时,略感到一丝惊讶。2019年1月她带着好奇加入这家互联网大厂,准备撸起袖子,大干一场。
面试时,主导芯片设计工作的Henry给她打过一剂预防针:“我们是从零开始做芯片。”Lynda试图代入鹅厂一贯的低调来理解这句话,但随即便在第一天上班时被跟同事的对话震到了:
-“我们的仿真工具呢?” -“没有,还在谈。”
-“验证环境怎么说?” -“还……没有。”
-“那……验证流程呢?-“这个……也没有。“
对于一个芯片验证工程师来说,仿真工具、验证环境、验证流程就是必备的生产力工具。Lynda想全程参与芯片研发业务,倒不怕从头开始,只不过没想到连这些必备品都能 “三无”。
当一家互联网公司投身半导体时,工具的欠缺还不是最紧要的。“造芯”不仅是业务的简单延伸,它往往意味着更复杂的产业链、更耗时的人才沉淀、以及更迥异的生态文化和技术理念。
比如芯片研发不像软件开发尚可后期不断改bug,设计问题没被前期验证发现,一旦流片就只能沦为一块“砖头”。而Lynda所担任的验证工程师,就是防止前期努力打水漂的守门员。
这个岗位的重要性不言而喻,设计工程师与验证工程师的比例在很多芯片公司会达到1:3。但Lynda入职后环顾四周,发现不仅自己只有一个并肩作战的同事,连验证的代码也一行都没有。
这时候,Lynda才开始明白Henry口中的“从零开始”意味着什么,以及她面临着怎样一场艰难的战役。
01
雄关如铁,出师未捷
在腾讯云副总裁、云架构平台部总经理谢明看来,“从零开始”的背后还有更多的曲折故事。
谢明所在的云架构平台部,站在腾讯各类前端应用的身后,是腾讯海量业务数据冲刷的前线,有效支撑了QQ、邮箱、微信、微云、流媒体视频等一个又一个的国民级应用。
2013年,QQ相册已经发展成腾讯最大的一个存储类业务。让用户访问相册的速度更快、体验更顺滑,成了一个很急迫的需求。转化成相应的技术问题,就是图片能否更快地转码?能否在不损画质的情况下压缩?能否以更低的成本存储?
他们反复地追问。
团队深刻地明白底层技术创新对上层应用的放大价值。软件架构上固然要永远不停歇地进行自我超越,但他们敏锐地察觉到,只有在硬件上也作出创新,才能实现更深层次的突破。
问题是:一个做软件出身的团队,怎么去做硬件?
一圈研究之后,他们决定先拿FPGA(可编程阵列逻辑)试水。跟我们平时电脑和手机里的通用芯片相比,FPGA是一种专用集成电路(ASIC),能够实现灵活的“半定制”开发。
FPGA相比起芯片容错率高,但在吞吐率、延迟、功耗和灵活性等维度上都很平衡。尤其是在处理海量数据时,FPGA相比GPU具有超低延时的显著优势,很适合用在特定的业务场景。
事实验证了这种判断。2015年,团队集中力量研发的图片编码FPGA,取得了比CPU编码和软件编码更高的压缩率和更低的延时,也帮助QQ相册很大程度上降低了存储成本。他们看到了在FPGA方向 探索 和深入的可能性。
2016年前后,由Alpha Go引爆的AI热潮更把FPGA拉入了主流视野。团队通过FPGA对深度学习模型的CNN算法进行加速后,处理性能达到通用CPU的4倍,而单位成本仅为1/3。
FPGA效果虽好,但技术门槛比较高,“如果把FPGA云化,是不是一个能够扩大应用的解决路径?”
带着这样的期待,2017年1月20日,腾讯云推出了国内首款FPGA云服务器,希望以云计算的方式,将FPGA能力推广到更多企业。
从效果上来说,在FPGA云服务器上进行FPGA硬件编程的企业,确实能将性能提升至通用CPU服务器的30倍以上,而只需支付相当于通用CPU约40%的费用。以一家著名的基因检测公司为例,传统用CPU需要检测一周的基因序列,FPGA可以压缩到数小时完成。
然而云化后的FPGA,没能如预期般迅速席卷整个行业。
一方面,FPGA毕竟是一种“半定制”的电路,许多企业还是无法独立胜任FPGA开发,需要更加上层的服务;另一方面,通用芯片成本的迅速下降,也让FPGA的性价比优势逐渐丧失。
云端商业化的受挫泼来一盆冷水,把团队的热情从巅峰一下子打到了谷底,同时也把两个问题赤裸裸地抛到整个团队的眼前:FPGA对业务的价值究竟有多大?FPGA还能继续做吗?
受此打击,团队在2018年也近乎分崩离析,人员开始集中式地离开。腾讯在“造芯”上的第一次 探索 ,画上了一个遗憾的逗号。
02
柳暗花明,“蓬莱”问世
在FPGA云服务器受挫后,腾讯需要重新思考硬件之路要怎么走下去。
在团队几乎解散的2018年,中国芯片行业迎来暖春:中美贸易摩擦给全民普及了芯片的重要性,科创板的设立为半导体企业上市开启大门,而国家资金的进场更是让大江南北一片热火朝天。
但是,对于互联网公司来说,做芯片跟做云计算、数据库、存储系统等一样,需要有具体的业务场景支撑,不能“为了做而做”。在经历过一场不算成功的 探索 后,腾讯要等待下一个真实需求带来的机会。
时间进入2019年。那是人工智能规模化应用的元年,内外部业务都提出了对AI芯片的强烈诉求。AI芯片,要不要做?
这个问题被提出来的时候,腾讯的管理层有过反对的声音,担心技术人员只是头脑发热,只是为了追逐热点。但同时,管理层也给了足够的灰度,没有明令禁止小团队级别的 探索 。
以小规模、低成本、特定应用场景的方式先行试水,成了大家的共识。
云架构平台部将第一款芯片敲定AI推理方向,取名“蓬莱”,希望这款芯片能像中国古代神话里的海外仙山一样,稳固地立于汹涌波涛之上。
这支硬件突围小分队,也被正式命名为“蓬莱实验室”。
有了FPGA 探索 时积攒的经验,蓬莱实验室对硬件编程语言已经相当熟练,也在标准接口、总线等方面积累了一些平台化的设计。然而,两者的研发要求,不可同日而语。
如果说做FPGA是搭现成的积木,那么做芯片就是直接从伐木开始来着手来制造积木。FPGA出了问题可以重新编程,而芯片只有一次流片机会,一旦出错,所有的努力便付诸东流。
此外, FPGA的资源是现成固定的,芯片的资源却是由自己定义的。一个字,就是要“抠”:用最小的资源做最大的事。
芯片架构工程师Rick用“装修”改“重建”来形容整个蓬莱项目。一开始,团队以为能把之前FPGA的技术较为简单地转成芯片。做着做着发现,以为终归只是以为——FPGA架构在芯片中能直接复用的并不多,团队只能把原来的架构整个拆掉,重写的代码量高达85%。
像DDR存储器这样的重中之重,芯片厂商通常会有专门的验证人员负责,而刚起步的蓬莱实验室没这个条件,只能靠抢时间把功课补回来。Lynda后来回忆道:“我恨不得一天有48个小时”。
2020年1月,蓬莱芯片流片完成,被合作方快递到深圳。新冠疫情刚刚在全国范围内暴发,公司已经开启集体远程办公。
项目负责人Henry戴着手套取到快递,用酒精仔细消毒后,带到空空荡荡的办公楼,大开着窗户和风扇,在一片消毒水味中,他和几个同事一起开始了至关重要的点亮 *** 作。
所谓点亮,就是给芯片上电,首先看有没有短路冒烟,接着就是测试一些基本功能。是芯片还是“砖头”,成败在此一举。
结果,芯片的时钟频率一直没出来。要知道,时钟频率是芯片的“节拍器”,没有时钟频率,芯片的不同模块等于没对好表,就无法协同工作。
是不是这块芯片的问题?实验人员换了一块芯片,依然没有信号输出。
再换一块,还是没有。现场鸦雀无声。
实验人员已经不敢动手了。有人忍不住开玩笑,是不是该回家改简历了。
但除了沮丧,大家心里更多的是疑惑。因为项目虽然人少、资源少,近乎是白手起家,但蓬莱团队从设计人员到验证人员都有信心说:每一步都做好了。到底是哪里不对呢?
在无比凝重的气氛中,他们继续放板、上电、读取信号……
第四块芯片,亮了。剩下的所有芯片,也都没问题。
真相其实很简单。28纳米工艺的芯片不良率只有3%,但偏偏随机测试的前三片都是坏片,小概率事件就恰好让他们全赶上了。这让他们把“生一胎”的紧张情绪,体验到十足。
在虚惊一场后的拍手相庆中,腾讯第一款芯片,宣告问世。
03
更上一层,“紫霄”凌云
量产后的蓬莱芯片,实战表现也不负众望,助力腾讯推出中国第一台获准进入医院临床应用的智能显微镜,实现自动识别医学图像、统计细胞数目并直接显示在视野上,性能表现完全符合设计要求。
这一扫当年FPGA云服务器项目的阴霾,说明在制造造出直面应用、性能卓越的芯片,这条路,腾讯走得通。
终端芯片蓬莱的问世,只是完成了从0到1的任务。团队已经迫不及待向要从1到N,向着大规模云端芯片进军。蓬莱实验室负责人Alex将大芯片申请立项戏称为“A轮融资”。
初试锋芒之后,团队需要向公司说明,为什么需要用更大的投入去做大规模芯片?在短期和长期能否保持领先性?如何与内外部业务结合创造价值?
腾讯这次面临的决策,要容易做得多。
首先是蓬莱实验室的成熟。通过一边行军一边成长,蓬莱实验室完成了一次次蜕变,建立起完整、严谨、规范的芯片研发体系和流程。这已经是一支具备硬核气场的“正规军”。
更重要的是,团队证明了腾讯做芯片的优势和站位。
谢明解释说,从行业来看,做芯片除了要考虑技术和工艺,最大的难点在于对芯片的“定义”。传统芯片厂商的优势在于前者,但芯片做出来之后再去匹配需求,在很多场景下真实性能是损失的。Google、腾讯这类 科技 企业的优势在于自身就是需求方,对需求的理解和洞察最深刻、最透彻。
方向没有问题,技术和工艺也没问题,腾讯高级执行副总裁、TEG(技术工程事业部)总裁卢山给予了全面支持,并通过总办争取到了更多的headcount和资金。
有了公司战略的支持,团队志气满满奔赴更大的战场。蓬莱实验室副总监Austin决定兵分两路,在AI推理和视频编解码上并行推进。
AI小分队继续做蓬莱的2.0版“紫霄”。这是《封神演义》里鸿钧老祖所居宫殿的名字。在稳固的仙山上牢筑“紫霄”,代表了新的野心:
这次,他们将目标直接定为业界第一。
紫霄所有的架构都围绕着有效算力去做。团队优化片上缓存设计,并摒弃竞品常用的GDDR6内存,采用先进的2.5D封装技术,把HBM2e内存与AI芯片合封在一起,从而把内存带宽提升了近40%。
技术迭代一日千里。紫霄立项后,业内最高性能表现又被竞品刷新。虽然紫霄的设计性能相比这个最高表现还足够“安全”,但团队还打算继续加码。
经过研究,他们在芯片内部增加了计算机视觉CV加速以及视频编解码加速,可创新性地大幅减小AI芯片和x86 CPU之间的交互和等待。
即便因此而增加了两个复杂的自研模块,团队仍然在计划的6个月时间里完成了从架构确定到验证以及流片的全部流程。
2021年9月10日,紫霄顺利点亮。
在图片和视频处理、自然语言处理、搜索推荐等应用场景下,这款芯片打破了制约算力发挥的瓶颈点,最终在实际业务场景性能表现达到了业界标品的2倍。
04
独立自研,“沧海”一笑
AI小分队给自己芯片取名“紫霄”,而视频编解码则取名“沧海”,颇有海天相接之意。
不同于蓬莱和紫霄主打AI,沧海是一款视频转码芯片。如果说当年QQ相册图片的转码问题是蓬莱团队做硬件的最早契机,那视频编解码小分队在这个方向上的继续 探索 ,正是完成了一次对初心的呼应。
不同的是,“沧海”的应用场景已经远超当年的范畴。
当多媒体业务从图片时代进化到音视频直播时代,天量的4K/8K超高清的数字内容如潮水一般持续冲击着云计算基础设施。每增加一个比特的数据,都会带来相应的转码算力和CDN带宽成本。
这是一道直观而严峻的数学题,而沧海小分队的解题目标也非常清晰,那就是要做一款业界最强的视频转码芯片,把压缩率发挥到极致。
好在,腾讯丰富的多媒体应用场景,以及腾讯云覆盖的众多直播互动头部客户,为沧海的研发提供了得天独厚的分析和验证条件。
团队先是推出了沧海的核心自研模块——硬件视频编码器“瑶池”,并决定在沧海完成研发之前给瑶池一次大考。
这个大考就是2020年的MSU世界编解码大赛,该大赛由莫斯科国立大学(MSU)主办,十多年来一直是全球视频压缩领域最具影响力的顶级赛事,吸引了包括英特尔、英伟达、谷歌、华为、阿里和腾讯在内的国内外知名 科技 企业参与。
结果是,瑶池实现1080P@60Hz的视频实时编码,力压群雄获得了SSIM (结构相似性)、PSNR(峰值信噪比)和VMAF(视频多方法评估融合)等各项客观指标评测第一名,以及人眼主观评价第一的好成绩,相比第二名领先了一个身位。
经此硬仗,沧海在技术上得到了充分检阅。
2022年3月5日,Derick和他带领的视频编解码小分队收到流片回来的芯片“沧海”,又正逢深圳因疫情而全面远程办公。
他们申请特批进入空空荡荡的办公楼。这情景,和两年前点亮蓬莱时何其相似。
不曾想到,点亮蓬莱时的一波三折,同样重现。克服了一些调试中的意外,在一片欢呼中,腾讯的第三款芯片、同时也是完全自主研发的第一款芯片沧海成功点亮。
化沧海为一粟。沧海最终实现以更小的数据量、更小的带宽提供相同质量的视频,压缩率相比行业最佳表现还提高了30%以上。
从蓬莱到紫霄再到沧海,从28纳米工艺到12纳米工艺,从8个人发展到100多人,从仿真工具一无所有到“天箭验证平台”正式落成,从努力跟上合作伙伴的节奏到独立做完全SOC。
两只小分队胜利会师。蓬莱团队,完成了一场“芯”路进化。
05
“100G”时代,双木参天
躬身跳进造芯大潮的,不是只有云架构平台部。
在多媒体、AI处理积极求变的同时,底层的云服务器也面临着相似的问题:当软件优化带来的性能提升无法让产品拥有区别于竞品的明显竞争力时,如何让性能突破现有天花板?
2019年,腾讯迎来云计算业务上的里程碑——云服务器规模突破了100万。腾讯云副总裁、腾讯网络平台部总经理邹贤能敏锐地观察到,随着服务器接入带宽不断提升,服务器用于网络处理的CPU资源也越来越多。
能否以更低成本的方式来实现服务器网络处理,同时还提供更高的网络性能?腾讯的网络平台部也将目光投向了软硬协同与硬件加速。
面对这样“既要、又要”的挑战,邹贤能决定给服务器做个减法:“把网络数据处理的负担从CPU卸载出来”。
“智能网卡”的想法就这样诞生了。
所谓智能网卡,一方面像普通网卡一样肩负起服务器的对外网络访问,实现不同服务器和数据中心之间的网络互联。另一方面,它额外带有CPU/FPGA/内存等智能单元,能分担一部分服务器的虚拟化计算任务,实现服务器整体网络和存储性能的加速。
换句话说,网络平台部要做的事,是要在网卡里新装一个服务器。
一开始,团队希望找到一款现成的商用板卡降低工作量。
网卡硬件负责人Hayden牵头开展方案论证和调研,但商用芯片的加速引擎不支持私有协议成为当时直面的第一大挑战,也是最大的障碍。一些著名的网卡设备商听了腾讯的要求就摇头:
“现在网卡的功能很简单,你们这个要求太复杂了,很难实现的。”
还有些直白地质疑:“网卡数量这么多,可靠性要求高,你们自己搞得定吗?”
难道智能网卡项目刚起步就要流产?
邹贤能给团队指明了方向:“既然智能网卡是云数据中心追求极致性能与成本的关键部件,如果市面上没有满足腾讯需求的产品,那我们就自己造一个。”
方向明确之后,路线也很快清晰起来:先从基于FPGA自研智能网卡起步,再开展智能网卡芯片研发。
2020年9月,腾讯第一代基于FPGA的自研智能网卡正式上线,命名为“水杉”,寄寓着团队希望产品可以像这种珍稀乔木一样适应性强、快速生长。
疫情期间各种突发需求砸来,初生的水杉没有被挑战压弯。
Hayden回忆道,一个大客户本身采用了UDP音视频协议,在属性上是“不可靠”、允许丢包的,极大地依赖网络吞吐和稳定性,却要求高并发、高质量的音视频传输效果。
水杉智能网卡迎难而上,通过大幅提升服务器的网络性能,帮助该客户完成了24小时零丢包的极限压力测试,稳定上线运行,交出了一份漂亮的答卷。
水杉投入应用后,第二代智能网卡“银杉”的研发工作也紧锣密鼓地启动,并于2021年10月正式上线。这一代智能网卡的网络端口翻了一番,达到了2*100G。
在又一颗参天大树的支撑下,腾讯云对外推出了业界首款自研第六代100G云服务器。它的计算性能提升最大220%、存储性能最大提升100%。单节点接入网络带宽相比上一代最大提升4倍,延时下降50%。
“两棵树”在网络硬件卸载上取得的巨大收益,令团队兴奋不已。
当FPGA路线逐渐逼近性能和功耗的瓶颈,网络平台部决定再一次把主动权掌握在自己手里。腾讯的第四款芯片,也是首款智能网卡芯片应运而生,它也有一个 “仙气十足”的名字——“玄灵”。
06
“玄灵”乍现,芯事未完
按照计划,这款7纳米工艺的芯片将在2022年底流片。
Hayden受命快速组建起了玄灵芯片研发团队,不断挑战多个“mission impossible”。
从性能指标来看,玄灵支持设备数量将提升到10K以上,相对商业芯片提升6倍。同时,它的性能相对商业芯片也可提升4倍,通过将原来运行在主机CPU上的虚拟化、网络/存储IO等功能卸载到芯片,可实现主机CPU的0占用。
这颗短小精悍的芯片,充分诠释了面向未来极致性能的“玄”,与面向各类业务需求灵活加速的“灵”。
目前,玄灵项目正在紧锣密鼓地进行智能网卡流片前的验证和测试,打造腾讯云下一代高性能网络基础设施;
蓬莱实验室的AI推理芯片紫霄和视频转码芯片沧海则将量产,与腾讯业务深度融合应用;
还有一些新的芯片项目也在酝酿成长,继续 探索 有需要的技术方向,丰富这一本“山海经”。
腾讯海量业务面临的全新挑战,以及云计算高速发展的必然要求,“倒逼”腾讯走上了这条造芯之路。这些从业务需求出发的芯片,必定会深入现实应用来证明自身的价值。
“我们不是无中生有、拍脑袋要去做芯片。我们一开始就知道,腾讯的需求足够大,足够我们去做这件事。”卢山说道。
从2010年起,腾讯就开始以云服务的方式对外开放自身的数字技术与连接能力,奔赴这场产业数字化转型升级的时代大潮。躬身入局,腾讯看到深度的数实融合正在引领全真互联的技术趋势。
而在腾讯之外,中国的 科技 公司们正在向创新的深水区挺进,突破瓶颈的努力显得愈发重要。无论是数实融合还是上游创新,硬 科技 的海面上一片百舸争流,它们都在 历史 的浪潮奋楫中流。
在这场大潮中置身事内,腾讯的芯事必然在星辰大海中得到回响。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)