腾讯在研芯片曝光,定制芯片时代谁将获利?

腾讯在研芯片曝光,定制芯片时代谁将获利?,第1张

随着定制芯片愈演愈烈,除却芯片厂商本身,谁还将从中获利?

去年我们报道过,腾讯成立了一家新公司,发力AI芯片。时隔一年,其庐山真面目乍现。经过半导体行业观察多方求证,我们了解到, 目前腾讯有一个大概50人规模的团队在做芯片,其AI芯片已经流片了 。如今AI领域已经成为世界 科技 巨头争夺的制高点,各大云厂商都已经陆续交出了自家的定制芯片,诚如百度的昆仑芯片、阿里含光、亚马逊、谷歌、微软等等,他们能有什么坏心眼?他们纯粹是为了得到更便宜或者是比第三方性能更好的芯片。随着定制芯片愈演愈烈,除却芯片厂商本身,谁还将从中获利?

我们今天所知道的基于单元的ASIC业务诞生于20世纪80年代初,是由LSI Logic和VLSI技术等公司率先开创的。如今这一趋势发展更加迅猛,定制芯片市场变得大众化。突然之间,任何有远见和合理预算的人都可以制造定制芯片。其结果是半导体技术在各种定制应用中无处不在,产品变得更小、更智能、更复杂。尤为代表的就是云计算厂商们,现在几乎全球所有的云厂商都进入了造芯的行列,而且都在优先考虑定制设计。这是一场芯片界豪华的盛宴,一场属于云厂商独飨的盛宴。

其实在国内BAT造芯行列,腾讯是相对落后的一员。国内如百度早在2010年就启动了FPFA AI加速项目,2018年发布了昆仑芯片,如今其昆仑1已出货2万片,而且昆仑2也将在今年面世。鸿鹄芯片的表现也不斐,这两年,搭载鸿鹄芯片的小度更是占据了智能音箱出货量的头把交椅。

阿里巴巴虽然自2015年才开始与中天微合作开发云芯片,但是阿里的造芯车轮却走的飞快。收购中天微,将其与达摩院合并成为平头哥半导体,先后交出玄铁910和含光800芯片两份答卷,打造端云一体全栈产品系列。再者其投资的芯片企业也是涉猎广泛,几乎将AI芯片初创企业一网打尽。

关于腾讯,我们都知道,其投资了AI芯片公司燧原 科技 ,而且已经连续投资了4轮,可见对燧原 科技 的看重。燧原 科技 的表现也着实不错,它只用了18个月便完成了研发,并一次性流片成功,实现从0到1的突破,并且是原创芯片架构,原创指令集。其实阿里巴巴一开始也是先入股投资中天微,后来将其收购了,这点如果放到腾讯身上来看,腾讯收购燧原 科技 也不失为一个芯片自研的捷径。

不过国内云厂商造芯的策略在某些程度上还是在仿照亚马逊等国外厂商的打法,让我们再来看看国外这些云厂商的芯片研发思路。

在国外云厂商中,尤以亚马逊走的最前列。亚马逊在2015年收购了以色列的一家小型芯片设计商Annapurna Labs,自那时起,便开始了漫漫芯片长征路。来自Amazon和Annapurna Labs的工程师制造了Arm Graviton处理器和Amazon Inferentia芯片。其一开始研发的Graviton芯片最初仅在特殊情况下使用,但现在其已经可以与传统上用于数据中心的英特尔芯片相媲美,这标志着该行业的潜在转折点。

如今,在迈向控制其关键技术组件的重要一步中,亚马逊正在开发网络芯片,为在网络上传送数据的硬件交换机提供动力。据说这些定制芯片可以帮助亚马逊改善其内部基础设施以及AWS,还可以帮助其解决自身基础架构中的瓶颈和问题,特别是如果他们还定制构建在其上运行的软件时。

微软已经为Azure数据中心及其HoloLens耳机创建了芯片设计。最近其在以色列悄然开设了一个芯片开发中心,投入到网络芯片等产品的研发。微软在以色列开发的有趣产品之一是SmartNIC,它是一种智能网卡,可加快公司数据中心服务器中的数据传输速度。该卡本身可以承担一些必要的任务,从而减轻了服务器中央处理单元的负担。Microsoft当前使用Mellanox的SmartNIC产品。但是它的长期目标是用自己的产品替换那些产品。

Google于2016年宣布了其首个定制机器学习芯片Tensor Processing Units(TPU)。Google目前正在提供第三代TPU作为云服务。Google这些年越来越重视芯片,已聘请英特尔前高管Uri Frank来领导其定制芯片部门。定制芯片一直是Google构建高效计算系统战略不可或缺的一部分。此外,设计定制服务器芯片将有助于谷歌云与微软Azure和AWS竞争。

这些 科技 巨头自研芯片的这种趋势在一定程度上反映出,目前的 科技 巨头与过去的数据中心运营商有多么不同。过去的数据中心运营商没有资源投入数亿美元设计自己的芯片。现在定制芯片的激增可以进一步降低先进计算产品的成本并引发创新,这对每个人都有利,不止他们自己,还有为之提供服务的厂商们。

云厂商陆续加入定制化芯片开发这个新行列,将衍生出更多的业务需求。那么,所有的ASIC资金将流向何方? 这其中明显的受益者就有芯片设计服务、EDA/IP需求、代工需求等等,尤其是那些耳熟能详的知名大厂商,然而还有一些隐藏不被大家熟知的设计服务业的受益者 。总而言之,处于这些需求赛道中厂商们都可能从定制芯片项目中获利。

首先,这些造芯新进者缺乏半导体设计相关的积累,势必会路生。因为芯片开发流程众多,包括产品定义、前端电路设计、后端物理实现、制造工艺、封装等多个环节,而且还常常需要组合多种不同功能的IP,使得设计难度进一步加大,并不是所有IC设计公司对这些技术都有深入的了解。于是就需要设计服务厂商的帮助。

在这其中,如博通、Marvell、联发科、Socionext(富士通和松下的LSI业务组合)等提供设计服务的公司将成为明确的受益者。尤其是博通,据了解,国内外大多数知名的厂商都在使用博通的设计服务。博通在全球芯片设计服务方面都占据很高的比例。

JP Morgan分析师Harlan Sur指出,博通不只协助设计芯片,也提供芯片生产、测试、封装的关键知识产权。博通已经在网络设备和无线芯片领域拥有大量业务,每年可能从谷歌和其他公司获得高达10亿美元的收入,用于制造运行服务器的定制芯片。博通一直默默协助Google TPU研发生产,据外媒报道,谷歌的第四代TPU芯片也已获得博通的服务设计,并开始与Alphabet旗下的谷歌设计第五代处理器,该处理器将使用更小的5nm晶体管设计。

始于谷歌,博通现在也在帮助Facebook,微软,Ericsson,诺基亚,阿里巴巴,SambaNova(斯坦福大学学者组建的初创公司)和其他大型公司提供了定制芯片,可用于多种用途。

Marvell的ASIC定制业务也越来越庞大。2019年5月,Marvell也宣布与格芯已达成协议,将收购格芯专用集成电路(ASIC)业务Avera Semiconductor。据悉,该业务单元帮助芯片设计师研发全定制芯片中的半定制芯片。Marvell希望通过面向5G运营商,云数据中心,企业和 汽车 应用的新5nm产品来撼动定制ASIC芯片市场。

另一方面,Marvell几年来一直在销售基于ARM技术的称为ThunderX的芯片家族。在向微软和其他公司销售这种芯片数年之后,Marvell现在被要求为微软定制一个版本,Sur相信,这是一款云计算芯片。而且微软正在与Marvell合作开发其下一代ThunderTh3(TSMC 7纳米)项目。

联发科早在2011年就开始提供ASIC设计服务,这几年也加强了ASIC设计服务的业务。2018年初,联发科正式宣布大力拓展ASIC设计服务业务,服务对象主要面向系统厂商和IC设计公司。联发科ASIC设计服务部门是一个独立部门,据悉,其ASIC设计服务最先看好的就是向产业链上游芯片设计板块渗透的互联网巨头们,而这些互联网或终端巨头引导着上游芯片业的走向,也占据着产业链整体利润的大头儿。这些对于未来的IC设计服务业务来说,具有很大的吸引力。

创意电子(GUC)是一家客制化IC服务厂商,背靠第一大股东台积电,其封装技术较为先进。创意电子独特地结合先进技术、低功耗与内嵌式CPU设计能力,且搭配与台积公司(TSMC)以及各大封测公司密切合作的生产关键技术,适合应用于先进通讯、运算与消费性电子的ASIC设计。

世芯电子(Alchip)亦从事ASIC服务。据其官网介绍,世芯电子能专精、快速交付最先进的ASIC方案给客户,在16纳米、12纳米、7纳米等节点制程技术上其皆是最快成功实现的业者,拥有可靠的实证纪录。

科创板上市公司芯原微电子(上海)股份有限公司(芯原股份)是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。据其官网介绍,芯原在图形处理器、神经网络处理器、视频处理器等方向有丰富的IP组合。

摩尔精英(MooreElite)则为客户提供从芯片定义到产品实现的全流程设计服务,与多家IP供应商和十几家晶圆代工厂紧密合作,为客户打造一个全面的设计云平台,基于长期打磨验证的设计流程和方法学,在边缘AI、云端大数据训练、消费电子、工业系统、网络计算SoC等不同应用领域有多年的技术积淀和可产品化的解决方案。

中国2000多家芯片公司,大多在摸着石头过河,可以说,这是一个非常有潜力的市场,据Gartner参考文献预测2020年ASIC市场将约为$ 27B。专注的高端ASIC供应商将带来巨大的商机。

除了芯片设计服务,这些芯片厂商大多使用Arm的IP,ARM可通过使用其IP开发定制处理器来收取许可和特许权使用费收入。据Axios的一篇报道,谷歌正在研发一款处理器,该处理器将为其2021 Pixel 手机和未来的chromebook提供动力。这款代号为Whitechapel的处理器据称拥有8颗ARM CPU内核,采用了三星的下一代5纳米制造工艺,并包含用于提高谷歌助手性能的专用电路。

定制芯片还要一些EDA/IP厂商来提供辅助性芯片设计服务,Cadence以及Synopsys毋庸置疑的可从中获利。早在2018年,Cadence就与Google,Microsoft,Amazon合作开发基于云的EDA工具,这些工具可以在云中运行,并且可以提供高水平的峰值性能。Synopsys也与Google Cloud合作以广泛扩展基于云的功能验证。

而所有这些芯片的设计开发,对代工厂来说也是一大好消息。诸如台积电和三星等芯片代工厂已经使从事定制芯片项目的 科技 公司能够轻松访问尖端的制造工艺。台积电已在生产谷歌的TPU和微软的HPU等芯片。去年11月,据日经亚洲报道,台积电正在与Google和AMD合作开发一种新的芯片封装技术3DFabric,该服务包含一系列3D硅堆叠和封装技术。预计首批SoIC小芯片将在2022年投入量产。台积电希望向其主要客户提供其先进的后端服务。

台积电此举当然不是在试图取代传统的芯片封装厂商,而是旨在为金字塔顶端的那些高端客户提供服务,以便笼络住财力雄厚的芯片开发商。当年台积电凭借封装服务拿下了苹果的大单,直到现在,台积电的大部分芯片封装收入仍来自苹果。如今在云计算任务比以往更加多样化和苛刻的时代下,定制芯片对高端封装的要求更高。如果能为谷歌、亚马逊等这些厂商提供高端服务的话,或许将是另外一笔大收入。

不止云厂商,还有苹果的M1芯片和特斯拉的FSD芯片等等,ASIC芯片已是大势所趋。设计ASIC芯片需要大量的资金投入,并且需要频繁更新以确保采用新技术和制造工艺。 科技 巨头将为这项技术而战,ASIC服务商们也不轻松。

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10658784.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-10
下一篇 2023-05-10

发表评论

登录后才能评论

评论列表(0条)

保存