独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!

独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!,第1张

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)

如果是渲染之类的,只有靠CPU解决吧。。。如果是生物,细胞,力学有些软件可以支持cuda计算了。如果是预算充裕的话,买cpu和GPU性能都好的工作站,不管哪种方案都可以完美达到最快速度。推荐你看看国产品牌正睿的这款双路八核图形工作站。标配2颗至强E5-2687W八核十六线程处理器(31GHz/8GT/20M缓存),英特尔C602服务器芯片组主板,32G DDR3 REG ECC 1333MHz容错校验内存,SSD 512G 6Gb高速固态硬盘,固态硬盘系统的随机读写IO能力可以达到传统SATA机械硬盘的30~100倍,4个热插拔盘位,Quadro 6000顶级专业绘图卡(6GB GDDR5显存,举世无双),双千兆网卡,性能可以说是非常不错。它是标配的两颗处理器,达成16颗处理核心,32条处理线程(在任务管理器处能看到32个处理核心的格子- -~很NB),最大支持256GB内存。
产品型号:I2TW2-8898HC
产品类型:双路八核工作站
处 理 器:Xeon E5-2687W×2
内 存:32G DDR3 REG ECC
硬 盘:SSD 512G
绘 图 卡:Quadro 6000
机 构:塔式
价 格:¥79900
银牌服务
全国三年免费上门售后服务,关键部件三年以上免费质保。
给你推荐的是国产品牌正睿的服务器产品,他们的产品性价比很高,做工很专业,兼容性,质量之类的都有保障,售后也很完善,3年免费质保,3年免费上门售后服务,在业界口碑很不错。

华为7纳米被限制,为什么不能用大芯片,真的越小越好吗?
题主问题的核心是华为7nm被限制,为什么不能用大芯片,真的越小越好吗?这个问题要从不同的角度去出发,从客观条件来说手机端或者是电脑端,或者是像我们平时使用的随身携带的电子数码产品,确实可以遵循这样的规律,也就是越小越好。但是如果是军队,或者是一些服务器,等等的地方,越小越好,确实有些不合适,我们就来针对这两个情况来说说:
一,芯片并非是越小越好,比如军队或者是一些工业设计,服务器之类的,确实工艺不高,不过反而是越好。
我们实际可以看到,即便是像美国科技方面那么发达,芯片制造制程等等确实不用担心,但是军用芯片还是使用65nm或者是45nm,包括中国自研发的龙芯制造采用的是我们自己的工艺,65nm技术。因为芯片工艺越高,抗干扰的能力越低。
这是因为新的工艺会有OCV效应影响,往往达不到军用的环境,比如很多作战地区的温度确实相比我们平时的使用要更加严峻,比如就拿温度来说,零下几十度或者是要求耐高温的程度确实是远超平时的处理器的,所以平时的处理器是做不到的,OCV效应越严重,带来的时序问题越多。
包括抗干扰,抗辐射,以及稳定性要更好,而且本身军用处理器的指令集确实相对简单,所以对于工艺的要求并不算是很高。以及服务器,以及路由器之类的芯片,很多现在还是45nm后者是28nm,实际就是因为他们同样需要稳定性很强,散热因为体积的关系,所以是可以做到的。
二,如果单拿华为的麒麟或者是高通这样的手机芯片来说,确实越小越好,这确实是定律。
这也是经过多方面的考量。首先我们看到就像电脑intel和AMD两家生产CPU的大厂,都开始向10nm以及7nm靠垄,所以更不用说像手机方面的芯片了。
1受限于体积。确实很多人说,工艺不行,但是我们可以一次采用几个处理器,或者是在一个主板上面使用多个CPU这样的方式,确实是可行的,就像虽然电脑芯片工艺现在很多甚至还是在14nm或者是16nm,但是他们足以媲美现在7nm的手机芯片运算能力,但是我们看到电脑主机的体积,就可以明白,他们工艺虽然不高,但是散热做的很好。对于手机来说显然是不合适的,一个手机甚至连一个主机里面的硬盘盒大小都不及,所以采用多个处理器虽然可行,但是散热怎么去做,功耗和发热怎么去控制,即便是这样的手机处理器,以后几个人会去购买呢?在手机这么寸土寸金的地方,任何一个地方不去妥协都是不可能的。
2从功耗和发热方面来说。工艺越高,也就意味着功耗和发热更低,本身现在处理器的研发我们也总是发现了,每次发布的时候总是会说相比上一代降低多少的百分之几的功耗等等,实际也就是说发挥同样的性能下,新一代处理器发热会更小,而上一代就要发热更快。
而处理器工艺越高,也就意味着体积越小,那么发热和功耗就会越来越低,对于手机来说就可以进一步压缩尺寸,可以留更多的地方给电池,或者是加入其他的元器件,加入新的功能。
3成本方面的考虑。实际上一次在一次芯片演讲的视频中,确实有看到过这一点,我们知道芯片是从晶圆上面切割刀而来的,而芯片本身是长方形之类的,如果工艺更高,那么体积越小。那么也就是说同样一片晶圆上面,假设16nm工艺可以裁切出来20个处理器,但是7nm的芯片可能就是40,或者是50个,甚至更多。
这样成本才会在慢慢的降低,当然这说起来手机也算是一个食物链。厂商,设计,芯片等等,这算是一个食物链。
个人的想法和看法:
从实际使用手机的角度来说,使用的环境不会太过于恶劣。所以对于抗干扰以及稳定性的要求并不是很高,或者是说工艺越高带来的不稳定性实际不影响使用,也是因为如此,所以手机芯片实际无所畏惧,工艺的提升对于手机这样体积的电子产品来说,功耗和发热降低,内部空间更多,可以做更多的功能来吸引消费者,以及更低的成本,这些综合因素来说确实工艺越小,对于我们日常使用的电子产品来说肯定是更好的。

近两个月的中兴禁运危机暴露了我国在核心芯片方面的短板,社会各界纷纷呼吁实现芯片自给。纵观以往各国核心技术的开发,政府采购都是巨大的助力,如今,中国政府采购也发力国产芯片、国产 *** 作系统。

中央国家机关5月17日发布“2018-2019年信息类及空调协议供货的征求意见”,包含打印机、计算机(台机和笔记本)、空调、交换机、服务器五类产品。其中,服务器产品的技术要求引人注目。

本次增设服务器品种有三类,并非是传统的机架、刀片、塔式之分别,而是三款国产芯片;龙芯、飞腾、申威。

换句话说,服务器厂商只有和三个国产芯片合作,研制国产芯片服务器才能入围此类协议供货。据悉,目前进入协议供货的服务器厂商配置的芯片都是英特尔的E系列。

查询中央政府采购网发现,去年中央国家机关有关服务器采购内容无法查看,“中央国家机关2017-2018信息类产品协议供货采购项目采购公告”、“中央国家机关2017-2018信息类产品协议供货采购项目中标公告”相关协议附件均需以采购人或供应商方式登录。

此次征求意见提及的龙芯服务器CPU型号至少为3B1500,申威CPU服务器型号至少为申威1621,龙腾CPU服务器型号至少为1500A-16。有报道指出,两款CPU服务器型号之间性能差距较大。比如:申威1621是申威最新的产品,而3B1500则是龙芯2012年10月流片成功的老款CPU,以通用性能一般“著称”。

根据龙芯发布的信息,升级后的龙芯3B1500版本采用龙芯3A3000处理器同版芯片,处理器核心在保持指令集向前兼容的基础上,微结构由原有的GS464升级为GS464E,同主频性能得以大幅提高。同时为了保证软硬件系统的兼容性,升级版龙芯3B1500暨龙芯3A3000和原龙芯3B1500处理器不但在CPU硬件上保持了功能引脚级的兼容,在软件上也实现了 *** 作系统级的兼容。

据了解,升级后的龙芯3B 1500采用28nm工艺制造,微架构为GS464E,集成晶体管超过12亿个,集成了八个向量核心,峰值运算能力可达192GFlops,兼容当前主板。

目前,中标麒麟V70(64位版本) *** 作系统已经实现了对龙芯3B1500和升级版芯片(3A3000)的同一个版本并全面系统兼容,客户相关3B1500产品可平滑过渡到升级版芯片(龙芯3A3000),龙芯公司将竭诚为客户提供相关支持与升级服务。

至强处理器是面向服务器和工作站市场的处理器,其设计注重的是性能和可靠性。由于其主要应用场景是高性能计算和大规模数据处理,因此功耗较高是不可避免的。但是,在功耗控制方面,至强处理器也做了不少努力。例如,采用了先进的制造工艺、智能功耗管理技术和动态电压调节等措施,来降低功耗和提高能效。
至于主频低,这主要是由于至强处理器的设计目标和应用场景不同于桌面处理器。桌面处理器更加注重单核性能和游戏性能,因此其主频往往比较高。而至强处理器则更加注重多核性能和可扩展性,因此其主频相对较低,但可以通过多核技术来提高整体性能。此外,至强处理器还支持超线程技术,可以将每个物理核心模拟成两个逻辑核心,从而进一步提高多任务处理能力。
综上所述,至强处理器功耗大主频低的设计理念是为了满足高性能计算和大规模数据处理的需求,同时也是为了追求更高的能效和可靠性。虽然主频相对较低,但是多核技术和超线程技术的加持,可以使其在多任务处理和并行计算方面表现出色。

英特尔四内核四处理器架构芯片Tigerton
2006年底,英特尔发布了全新的多内核服务器芯片,Tigerton。英特尔工作人员展示了这款四内核服务器芯片,该芯片被用于四处理器服务器产品,这也意味着该服务器拥有16个独立的运算内核。
Tigerton芯片系列在2007年第三季度面市,以作为Xeon MP芯片家族的补充。英特尔表示,Tigerton是MP系列产品中,首款应用酷睿(Core)微处理器架构的芯片,该架构比起传统的Netburst,在功耗和性能方面均得到了长足进步,并且最终完全取代NetBurst。在桌面、笔记本以及双内核服务器市场,英特尔均推出了Core内核处理器,只有四内核以上服务器芯片领域,公司还局限于传统Netburst架构。因此,此次发布的Tigerton,也是对Core内核产品线的一次扩充。
另一方面,Tigerton四内核服务器处理器系统,还使用全新的Clarksboro芯片组,该芯片组淘汰了传统的双独立bus架构,并且更换为四内核芯片组链接,从而提高了整体系统的运算能力。英特尔的四处理器服务器架构中,两块处理器不得不共享一条芯片组通道,这也造成系统的瓶颈。英特尔表示,到2007年的时候,公司四内核处理器芯片总销量预计突破100万块,其中包括Kentsfield四内核处理器,以及Clovertown处理器。

通用计算能力 CPU 作为通用处理器, 偏重支持控制流数据。CPU 的芯片分为多种架构,主要包含 x86、ARM 等。 通用算力= ∑ (某型号 CPU 服务器存数 × 该型号服务器 CPU 算力) CPU 算力核数 X单核主频 X CPU单个周期浮点计算值。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12777034.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-27
下一篇 2023-05-27

发表评论

登录后才能评论

评论列表(0条)

保存