2018年全球最值得关注的AI芯片初创公司

2018年全球最值得关注的AI芯片初创公司,第1张

Wave Computing

Wave Computing在2018取得了不少进展,推出其第一个DataFlow处理单元,收购MIPS,创建MIPS Open,并将首批系统交付给少数客户。虽然Wave架构有一些非常有趣的功能,但我们更期待用户的大规模真实体验反馈。

Wave不是插入到服务器的加速,它是用于图形计算的独立处理器。这种方法有利有弊。从积极的方面看,Wave不会受到GPU等加速面临的内存瓶颈影响。从消极方面来说,安装Wave设备将是新的升级,需要完全替换传统的X86服务器,也让其成为所有服务器制造商的竞争对手。

我不认为Wave能从某个点击败NVIDIA,但该架构的设计的非常好,该公司已经表示它很快就会有客户的反馈。

图1:Wave是从上面显示的4节点“DPU”构建的系统。Wave Computing

Graphcore

Graphcore是一家资金雄厚(融资3.1亿美元,目前估值为17亿美元)的英国独角兽创业公司,拥有全球化的团队。它正在构建一种新型的图形处理器架构,其内存与其逻辑单元位于同一芯片上,这应该能够实现更高的性能。该团队产品的发布时间暂不明确,不过他们去年四月表示“几乎准备好发布”了,12月的最新信息表明它将很快开始生产。

Graphcore的投资者名单令人印象深刻,包括红杉资本、宝马、微软、博世和戴尔 科技 。

我了解了该公司的架构,它非常令人印象深刻。从边缘设备扩展到用于数据中心的训练和推理的“Colossus”双芯片封装。在最近的NeurIPS活动中,Graphcore展示了其RackScale IPU Pod,它在一个32台服务器的机架中提供超过16 petaflops的算力。虽然该公司经常声称它将提供比同类最好GPU强100倍的性能。

Graphcore表示,4“Colossus”GC2(8芯片)服务器可提供500 TFlops(每秒数万亿次 *** 作)的混合精度性能。单个NVIDIA V100可提供125 TFlops,因此理论上4 个V100就可提供与其相同的性能。

与往常一样,细节更能发现差别,V100峰值性能仅在重构代码执行TensorCore的4x4矩阵乘法时才可用,这是Graphcore架构巧妙避免的限制。更不用说V100消耗了300瓦的电能和大量现金这一事实。

此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,可以得到超出TFlops基准所认可的优秀性能。在一些神经网络中,如Generative Adversarial Networks,内存是瓶颈。

再次强调,我们将不得不等待真实的用户用实际应用程序来评估此体系结构。尽管如此,Graphcore的投资者名单、专家名单和台天价估值告诉我,这可能是一件好事。

图2:GraphCore展示了ImageNet数据集处理的照片。 可视化可帮助开发人员了解其训练处理占用处理周期的位置。

Habana Labs

Habana Labs是一家以色列创业公司,去年9月在第一次AI硬件峰会上宣布它已经准备好推出其首款用于推理的芯片,其创纪录的性能用于卷积神经网络图像处理。结果显示在Resnet50图像分类数据库中该处理器每秒分类15,000张图像,比NVIDIA的T4高出约50%,功耗仅为100瓦。

在2018年12月,Habana Labs的最新一轮融资由英特尔风险投资(Intel Venture Capital)领投,WRV Capital,Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。

据悉,Habana Labs新的融资将部分用于流片其名为“Gaudi“的第二款芯片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。

其它创业公司

我知道世界上有超过40家公司在为人工智能设计训练和推理芯片。我发现大多数公司都在进行简单的FMA(浮点乘法累加)和混合精度数学(整型8位和浮点16位和32位)。对此我不会感到惊讶,因为这种方法相对容易实现并且会获得一些成果,但它不会为像NVIDIA,英特尔以及少数初创公司做出不一样的架构提供持久的架构优势。

以下是一些引起我注意的公司:

中国AI芯片初创公司

中国一直试图找到一条摆脱美国半导体的方式,人工智能加速可能会提供它一直在寻求的机会。中国设定了2030年要建立一个价值数万亿美元的人工智能产业的目标,自2012年以来,投资者已经向创业公司投入了超过40亿美元的资金。

寒武纪 科技 估值为25亿美元,是已经发布了第三代AI芯片的中国独角兽公司。寒武纪称它可以用更低的功耗提供比NVIDIA V100更好的AI性能,他们还销售其AI IP,搭载在华为麒麟970和麒麟980的处理器当中,作为AI加速硬件。

商汤 科技 也许是估值最高的AI创业公司,以在中国推广智能监控摄像头而闻名。这些安防摄像头数量超过1.75亿,包括其他公司生产的摄像头。商汤 科技 在香港成立,最近一轮融资数额达6亿美元,由阿里巴巴领投。据报道,这家初创公司的价值目前为45亿美元。

商汤 科技 与阿里巴巴、高通、本田甚至NVIDIA等主要公司建立了战略合作伙伴关系。该公司今天拥有一台超级计算机,运行大约8000块(可能是NVIDIA提供?)GPU,并计划再建造5台超级计算机来处理数百万个摄像头采集的面部识别数据。

雷锋网编译,via forbes

(文/观察者网 吕栋)在距今大约5.3亿年前的寒武纪时期,地球上在2000多万年的时间里突然涌现出各种各样的生物,一系列与现代动物形态基本相同的物种来了个“集体亮相”。而在此之前,更为古老的地层中却长期没有找到动物化石,这一时期史称“寒武纪生命大爆发”。

5.6亿年前寒武纪出现的最有代表性的远古动物——三叶虫。图源:视觉中国

现如今,“寒武纪生命大爆发”仍然是古生物学和地质学中的一大悬案,更是困扰着包括达尔文在内的学界大佬。然而,当我们此刻在搜索引擎中输入“寒武纪”这三个字时,排在输出结果第一位的已不再是那个困扰科学界的谜题,而是一家人工智能芯片领域的 科技 公司。

值得注意的是,最近几年,国内涌现出不少初创AI芯片设计企业,它们在吸附大量一级市场资金后,一方面互相激烈竞争,另一方面还不得不面对来自巨头的压力。在该领域,不仅有英特尔、英伟达等芯片行业传统巨头,也有华为、阿里等跨界选手,无一不对这块蛋糕“垂涎三尺”。

而寒武纪正诞生于上述背景中。

一个月前的2月28日晚间,北京证监会官网发布消息,2019年12月5日,中科寒武纪与中信证券签署A股上市辅导协议,正式开启冲刺科创板的进程。

而3月26日上交所官网显示,创办刚满4年的寒武纪上市申请已获受理。短短几个字,意味着该公司距登陆科创板又近了一步,同时也再次将其置于舆论的放大镜下。

市场普遍认为,如果寒武纪成功登陆科创板,将成为毫无悬念的“AI芯片第一股”。

残酷的现实便是,中国集成电路进口额长期大于出口额。官方数据显示,2019年中国集成电路进口总额为3055.5亿美元,而出口仅1015.8亿美元,进出口比例为3:1,时代也在期待中国芯片领军者。

而该公司以“寒武纪”给自己命名,寓意“AI大爆发”,并以“全球智能芯片领域的先行者”作为自己定位,既彰显了几分神秘又凸显了其“野心”。

别人眼中的学霸

提起寒武纪,就不得不提其创始人陈云霁和陈天石这两兄弟。

哥哥陈云霁1983年出生,两年后弟弟陈天石出生,江西南昌人。与大多数年过而立、尚未不惑的同龄人相比,他们可以说已有所成就。

1月16日,陈天石刚以寒武纪CEO身份成为2019年中国科学年度新闻人物十人之一,而陈云霁早已从前辈手中接过2017年度 科技 创新人物奖。

不少人好奇,这对来自江西的“双子星”,缘何既能读书出色,又能在创业后搞出一个“独角兽”。

履历显示,陈云霁9岁上中学,14岁便考入中国科大少年班,24岁取得中科院计算所博士学位,29岁晋升为研究员,33岁获得中国青年 科技 奖和中科院青年科学家奖。

小两岁的陈天石,几乎是沿着哥哥的脚步一路从中科大少年班追到了中科院计算所。他16岁考入中科大少年班,25岁在中科大计算机学院拿到博士学位,指导导师是陈国良和姚新。

事实上,这对别人口中的学霸,在他们自己看来并非“模范兄弟”。

陈云霁曾提到,两人小时候常打架,长大后一言不合就吵起来,要不是有血缘关系早就闹崩了。不过,两人最终还是会让道理来说话。

在接受媒体采访时,陈云霁曾透露,“和很多人想象的不太一样,我并不是学霸。相反,多数时候都是一个学渣。”而且他讲到,在19年的学习生涯中,不但考第一名的次数不多,还常在班上排名倒数。

2002年,19岁的陈云霁已经在中科大少年班度过了第五个年头。酷爱 游戏 的他对于自己的课业成绩并不太在意,而是把《星际争霸》当做主课来修。他曾坦言,“挂科的压力一直是悬在头上的剑,但是科大的老师对于我们这些调皮的孩子非常包容,给了我们很大的空间去成长。”

当年,即将本科毕业的陈云霁听说中科院计算所在研制中国第一块通用CPU芯片“龙芯1号”,希望能拜师计算所胡伟武老师,于是报考了中科院计算所的研究生。

这家始建于1956年的研究所,是中国第一个专门从事计算机科学技术综合研究的学术机构。从这里走出的包括联想控股、龙芯中科、中科曙光等,均为中国信息技术产业中的知名企业。

2017年,陈云霁接受采访时曾开玩笑称,在他之前,中科院计算所从来没有招过像他本科成绩这么差的学生。但是,胡伟武看到他玩《星际争霸》的表现,认定他有科研潜力,便力排众议将他录取。

“Work hard,play harder!胡老师就是看中了我这一点。” 陈云霁当时说。

估值超220亿

事实证明,陈云霁确实没有辜负胡伟武的期望。

博士毕业后,他留在了中科院计算所龙芯团队,在胡伟武的指导下成为8核龙芯3号的主架构师。他还与胡伟武合著了《计算机体系结构》,并在2008年开发龙芯3号的过程中完成了一篇重量级的论文。

不仅如此,陈云霁向胡伟武引荐了另一位“高徒”,他的弟弟陈天石。

与做硬件芯片出身的陈云霁不同,陈天石的研究方向是人工智能,专注于软件算法。 在博士毕业后他也加入了中科院计算所,这为后来两个人一起设计出“让计算机更聪明”的专门神经网络处理器埋下了伏笔。

时针拨回到2010年,当时国内人工智能芯片尚处于较冷阶段。

根据公开报道,在计算所汇合后,陈氏兄弟也曾就职业发展探讨了好长时间,最后认定有两件“非常好玩的事”可以做:一是用AI辅助做处理器的设计,另外一个就是做AI芯片。

起初,陈天石在向计算所领导汇报想做AI芯片时还曾拿自动驾驶举例:“大家很早就在说有一天机器会替代人开车,但如果开车的机器人在做模式识别的时候速度不够快,那么这个车就完全没有让机器开的理由。所以,它一定需要很强的车载运算能力。”

2015年,早在寒武纪公司成立之前,在中科院战略性先导专项和中科院计算所的支持下,陈氏兄弟主导的世界首款深度学习专用处理器原型芯片——“寒武纪”首次成功流片。

之所以取名为“寒武纪”,是想用地质学上生命大爆发的时代寓意人工智能的未来。

次年春天,谷歌的AlphaGo“一战成名”,人工智能在全世界范围内再次掀起波澜,国内对人工智能的重视也达到前所未有的高度。不仅如此,2017年以及之后的两会中,人工智能也成为关键词之一。

而陈氏兄弟的研究也赶上了好时候。

2016年,全球首款可商用的深度学习处理器“寒武纪1A”处理器问世,寒武纪 科技 公司也正式成立于当年3月,其数千万的天使轮融资也正是来自中科院。

值得一提的是,性格的不同也让陈氏兄弟在公司拥有不同的角色。

陈云霁在公司职务上更偏研究,思考技术路径相关的部分,很少挂寒武纪头衔,多以“中科院计算所研究员”示人。

据陈云霁透露,他的性格偏外向、胆子大,喜欢做一些天马行空的事情,更适合搞科研。

而弟弟陈天石比较慎重,每走一步都会想好可行性,能规避产业发展中的“坑”,适合带领一个企业往前冲。

所以陈天石总以寒武纪创始人、CEO的身份出现在公众视野。

根据公开报道,除陈氏兄弟外,寒武纪团队成员不仅囊括了中科院技术精英,也有中国首个通用CPU“龙芯1号”的核心参与人员。

具体奋斗目标上,他们希望让AI芯片计算效率提升1万倍,功耗降低1万倍,可以把“AlphaGo”这样的领先AI应用装入手机中。

不过,“天才少年”也曾被人吐槽。

根据中国科学报报道,在寒武纪最开始募资的时候,其团队也曾碰钉子,有人吐槽他们“PPT做得差”,边吐槽边教育,“小伙子你这样是融不到钱的”。

招股说明书显示,在公司成立之后,寒武纪共经历了6次增资和3次股权转让。

2017年8月,该公司完成估值10亿美元的A轮融资,国投创业领投,阿里巴巴、联想创投、国科投资、中科图灵、元禾原点和涌铧投资等参投,使得寒武纪成为全球AI芯片领域首家独角兽公司。

不到一年之后的2018年6月,寒武纪宣布完成数亿美元B轮融资,国有资本风险投资基金、国新启迪、国投创业、国新资本等联合领投,该轮融资后的寒武纪估值约为25亿美元,距离一年前的10亿美元翻了一番还多。

正是在此时,陈天石对外透露了公司上市动向:“未来倾向于考虑在境内A股上市”。

在此之后,寒武纪的估值便不得而知。根据招股书,2019年9月13日,寒武纪新增南京招银、湖北招银、国调国信智芯和嘉富泽地等股东;2019年9月16日,陈天石将其所持寒武纪有限2.43%的股权和0.86%的股权分别转让给艾溪合伙和纳什均衡。

这也是寒武纪在上市前最后的增资与股权变动。

根据股权结构,南京招银出资8亿元,获得寒武纪上市前3.61%的股权,纳什均衡受让了0.86%股权,耗资1.8亿元。

据此计算得知,寒武纪在经历6轮融资后估值约221.6亿元。

由于在过去的几轮融资中,国字号背景的投资方居多,寒武纪也因此被市场视为AI芯片的“国家队”。

存银行理财39亿

寒武纪公开的招股书披露,其主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售,主要产品包括终端智能处理器IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及与上述产品配套的基础系统软件平台。

简而言之,人工智能芯片是相对于传统芯片的概念。

目前,AI芯片主要是指GPU、FPGA、ASIC等人工智能加速芯片,主要用于解决人工智能庞大的算力需求。AI芯片的主要应用场景为云计算数据中心与边缘计算,后者包括摄像头 IPC、自动驾驶、手机的Soc等。

纵观处理器芯片市场,通用处理器芯片如CPU、GPU的芯片的壁垒极高,国内仍未实现突破,且通用处理器领域已经发展成熟,目前市场由国际巨头高度垄断,后来者难以竞争。

而AI芯片是全新的市场,进入者有后发先至的可能,寒武纪正是这样的新入局者。

自寒武纪2016年3月成立以来,其先后推出了三大类产品:

招股书中介绍,寒武纪目前采用的盈利模式是“授权+成品”,前者类似ARM,将AI芯片的知识产权(IP) 授权给下游厂商,例如最知名的合作伙伴华为;后者则是寒武纪自己设计,找代工方生产后自行销售。

值得注意的是,IP供应商相比于芯片提供商利润规模并不高。

例如,ARM作为全球领先的半导体IP提供商,本身不直接从事芯片生产。

全球大部分的手机CPU都在使用ARM架构,市占率非常高,但是营收规模却在巨头中比较逊色。2017年ARM核芯片出货量213亿颗,营收才17.8亿美元,净利8亿美元,营收规模还不如国内很多芯片公司。

而处理器龙头英特尔是芯片供应商,2017年营收628亿美元,净利润为96亿美元,收入规模远超ARM。

公开资料显示,人工智能IP仅作为一个加速芯片模块,价格远比不上ARM IP。

因此,IP研发需要巨大的成本投入,在IP未得到大规模应用情况下,是付出多回报少的“苦生意”。

由于智能芯片研发需要大量资本开支,作为初创公司,寒武纪也年年亏损。

招股书显示,2017年-2019年,其营收分别为784.33万元、1.17亿元、4.44亿元;营收增幅明显,但盈利堪忧,连续三年分别亏损3.8亿元、4104万元和11.79亿元,累计约16亿元。

而巨额亏损主要来自两方面,一是“研发支出较大,产品仍在市场拓展阶段”,二是“报告期内因股权激励计提的股份支付金额较大”。

其也在特别风险提示一栏中醒投资者,寒武纪无法保证未来几年内实现盈利,其上市后亦可能面临退市的风险。

正如寒武纪所言,其巨额亏损确实与研发大量投入有关。

2017年-2019年,其研发投入分别为2986.19万元、2.4亿元、5.43亿元,占营收比例分别为380.73%、205.18%和122.32%,累计投入8.13亿元,相当于三年累计营收的1.43倍。

截至2019年12月31日,寒武纪研发人员有680人,占比接近员工总数的80%;拥有硕士、博士学历的员工有546人,占比超60%。

与此同时,寒武纪的高研发投入也获得了相对可观的回报。

截至2020年2月29日,其已获授权的境内专利有50项,境外专利有15项,此外还有PCT专利申请120项,正在申请中的专利共有1474项。

在研发投入远超营收的情况下,可以说寒武纪目前的营运资金主要依赖外部融资。

招股书显示,2017年-2019年,寒武纪筹资活动产生的现金流量净额分别为4.96亿元、24.05亿元以及17亿元,总计为46.01亿元。

而前述年度下,寒武纪期末现金及现金等价物余额则分别为2.27亿元、13.54亿元以及3.83亿元。不难看出,其消化资金的速度有些惊人。

寒武纪还在招股书中称,由于未来几年将存在持续的大规模研发的投入,上市后未盈利的状态可能持续存在。因此,足够的运营资金对于持续高研发投入的寒武纪显得尤为重要。

招股书显示,寒武纪本次拟发行股份不超过4010万股,不低于发行后总股本的10%,融资28.01亿元,用于新一代云端训练芯片、云端推理芯片、边缘端人工智能芯片及系统项目和补充流动资金。

在持续高研发投入的背景下,寒武纪还要融资28亿,那现在应该很缺钱?

令人惊讶的是,截至2019年末,寒武纪货币资金余额为38.3亿元, 银行理财产品38.9亿元 ,资产负债率为6.68%,且全部为日常经营过程中产生的非付息债务,无银行借款等其他付息债务。

除此之外,寒武纪还有3.8亿元的银行存款。

值得注意的是,作为技术密集型企业,寒武纪的毛利率水平也较高。

2017年-2019年,其综合毛利率分别为99.96%、99.90%及68.19%。其中,终端智能处理器IP业务的毛利在99%以上。针对去年毛利率有所下降,招股书解释称,这是因为这一年拓展了新业务——云端智能芯片及加速卡、智能计算集群系统业务。

分道扬镳

提到寒武纪,不得不提的就是华为。

寒武纪在招股书中提到,其寒武纪1A、寒武纪1H分别应用于某全球知名中国 科技 企业的旗舰智能手机芯片中,已集成于超过1亿台智能手机及其他智能终端设备中。根据公开信息,其指的就是华为。

2017年,华为推出了移动处理器麒麟970,主打AI性能,其搭载的NPU IP就是来自寒武纪;次年的麒麟980,依然选择与寒武纪合作,Mate 10、Mate 20、P20等旗舰机,均搭载了后者的NPU。

作为寒武纪最大客户,2017年-2018年两年间,来自 公司A 的收入一直占其营收比例在98%上下,为其第一大客户。

招股书中提到,2018年 公司A 得到寒武纪授权,将寒武纪终端智能处理器IP集成于其旗舰智能手机芯片中。

艾瑞咨询则在一份报告中称:“仅从搭载麒麟970手机出货量来看,若授权费为5美元/片,则超过4000万台手机出货量为寒武纪带来约2亿美元(折合人民币14亿元)的收入。”

由于和华为的良好合作关系,寒武纪曾在2017年公开表示,计划3年后占有中国高性能智能芯片市场30%的份额,并使全世界10亿台以上的智能终端设备集成有寒武纪终端智能处理器。

不过,事情在2018年发生了变化。

当年10月,华为在全连接大会上发布了升腾910、升腾310两款AI芯片,其采用的是华为自研的达芬奇架构,而非寒武纪的方案。当时,这被媒体解读为“华为要与寒武纪做彻底的切割”,走向独立造芯之路。

次年6月,华为发布的nova 5搭载了中端移动处理器“麒麟810”,这是首款采用华为自研达芬奇架构的手机AI芯片;年底的麒麟990,依然采用的是前述架构,其在AIBenchMark跑分达到了麒麟980的476%。

近日,寒武纪CEO陈天石在接受采访时谈到与华为的合作关系称:其实我们和客户的关系一直挺好。还是我之前的观点,AI芯片大家都做,恰恰说明它重要。

针对华为已经在用自研的达芬奇架构,对其收入有何影响?

陈天石并没有正面回答,只是表示:“我们的收入增长很快,未来希望有机会向大家公开披露我们的财报。”

而寒武纪招股书中的数据显示,来自 公司A 的收入占比已经从2017年98.34%骤降到2019年的14.34%,比2018年大幅减少为6365万元,并从第一大客户降为第四大客户。

众所周知,华为是国内仅有的自研SoC的手机厂商。国内大部分的终端厂商不像华为一样自研AI芯片。

不过,有观点指出,如果寒武纪要进入vivo、OPPO等手机品牌,必须说服芯片供应商采用其产品,难度不小。

因此,寒武纪此后再未提及“三年占领三成市场”的目标。

寒武纪在招股书中称,2018年其终端智能处理器IP许可销售收入同比大幅增长,主要原因系人工智能技术和应用开始普及,采用该公司终端智能处理器IP的终端设备已实现规模化出货,使得其终端智能处理器IP许可销售收入大幅增加。

而2019年其终端智能处理器IP许可销售收入同比下降较大。

招股书中解释称,主要原因系2018年向 公司A 逐步交付了终端智能处理器IP,2019年固定费用模式的IP许可销售收入相应下降。

与此同时,寒武纪在招股书中还将华为海思列为了竞争对手。

寒武纪在招股书中坦言,与英伟达、英特尔、AMD等国际大型集成电路企业相比,其在整体规模、资金实力、研发储备、销售渠道等方面仍然存在着较大的差距。国内企业中如华为海思及其他芯片设计公司也日渐进入该市场,其面临着市场竞争进一步加剧的状况。

耐人寻味的是,寒武纪CTO梁军就出身华为,先后就职于华为公司北京研究所、华为海思半导体公司,于2017年跳槽到寒武纪。目前这位CTO是所有高管中薪资最高的一位,持股也达到了3.2%。

值得注意的是,在市场调研机构Compass Intelligence2018年发布的AIChipset Index TOP24榜单中,英伟达高居第一,华为海思排名12位,而寒武纪则是第23位。

事实上,除了华为,寒武纪的投资方之一阿里巴巴也是其强大的竞争对手,后者在2018年成立了“平头哥半导体有限公司”,整合了中天微系统有限公司和达摩院自研芯片业务。

次年7月,平头哥首颗智能芯片玄铁910发布,采用RISC-V架构瞄准端+云市场, 与寒武纪有高度重合

客户、供应商集中度高

“失去”华为的寒武纪,不再单独依赖IP授权,开始转向拓展云端智能芯片及加速卡业务与智能计算集群系统业务。

招股书中提到,2019年其拓展了云端智能芯片和加速卡、智能计算集群业务和相应的新客户,如服务器厂商、云服务厂商、企业和地方政府等,第一大客户销售占比下降,“实现了客户多元化”,已不存在向单个客户销售比例超过公司销售总额50%的情况。

寒武纪在招股书中透露,面向数据中心、云计算、边缘计算、移动终端、智能教育、智能制造、智能交通等多个领域,其已与紫光展锐、智芯微、浪潮、联想、阿里巴巴、百度、滴滴、好未来、金山云等众多国内知名公司分别就一个或多个领域开展深度合作。

2019年11月,寒武纪签下了珠海市横琴新区管理委员会商务局的智能计算平台(二期)项目,该合同总价高达4.4亿,当年直接为寒武纪带来了2亿营收。

另外,寒武纪还与西安沣东仪享 科技 服务有限公司、上海脑科学与类脑研究中心达成了智能集群系统的相关合作。

不过,寒武纪仍然面临着客户集中的风险。

其在招股书中介绍,2017-2019年,前五大客户的销售金额合计占营业收入比例分别为100.00%、99.95%和95.44%,客户集中度较高。若主要客户大幅降低对其产品的采购量或者其未能继续维持与主要客户的合作关系,将给其业绩带来显著不利影响。

据艾瑞咨询测算,芯片销售利润一般在每颗几美金,只有当产量达到千万量级时,芯片定价才能覆盖研发费用和芯片成本。

因此有分析称,作为专用芯片,寒武纪找到如此大规模的特定应用市场并不容易,收入很可能不足以支撑研发,这可能也是寒武纪寻求上市的主要原因。

除此之外,寒武纪采用Fabless模式经营,供应商包括IP授权厂商、服务器厂商、晶圆制造厂和封装测试厂等。2017年-2019年,其通过代理商采购芯片IP、EDA工具、晶圆及其他电子元器件等。

2017年-2019年,该公司向前五名直接供应商合计采购的金额分别为1422.28万元、20315.49万元和36271.17万元,占同期采购总额的比例分别为92.64%、82.53%和66.49%,占比相对较高。

其中,晶圆主要向台积电采购,芯片IP及EDA工具主要向Cadence、Synopsys和ARM等采购,封装测试服务主要向日月光、Amkor和长电 科技 采购,采购相对集中。

寒武纪提到,由于集成电路领域专业化分工程度及技术门槛较高,部分供应商的产品具有稀缺性和独占性,如不能与其保持合作关系,该公司短时间内难以低成本地切换至新供应商。

此外,寒武纪表示,未来若供应商业务经营发生不利变化、产能受限或合作关系紧张,或由于其他不可抗力因素不能与该公司继续进行业务合作,将对其生产经营产生不利影响。

本文系观察者网独家稿件,未经授权,不得转载。

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/8472762.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-16
下一篇 2023-04-16

发表评论

登录后才能评论

评论列表(0条)

保存