如果说英伟达的Grace CPU超级芯片的架构是CPU+GPU是巧合,那么英特尔和AMD推出的Falcon Shores XPU芯片、Instinct MI300芯片同样是CPU+GPU结构时,CPU+GPU一体的架构就很难称之为巧合了。
更为“碰巧”的是,以上三种芯片其都是用于数据中心的场景,这就意味着在未来两年内,AMD、英伟达和英特尔都将拥有混合CPU+GPU芯片进入数据中心市场。
可以说CPU+GPU的形式已经成为未来芯片设计的趋势。
英特尔推出XPU
英特尔宣布了一款特殊的融合型处理器“Falcon Shores”,官方称之为XPU。其核心是一个新的处理器架构,将英特尔的x86 CPU和Xe GPU硬件置入同一颗Xeon芯片中。
Falcon Shores芯片基于区块(Tile)设计,具备非常高的伸缩性、灵活性,可以更好地满足HPC、AI应用需求。
按照英特尔给出的数字,对比当今水平,Falcon Shores的能耗比提升超过5倍,x86计算密度提升超过5倍,内存容量与密度提升超过5倍。
Falcon Shores芯片将在2024年推出。
AMD推出APU
在数据中心领域,AMD同样展示其野心。
APU是AMD传统上用于集成显卡的客户端CPU的“加速处理单元”命名法。自2006年Opteron CPU的鼎盛时期以来,AMD一直梦想着使用APU,并于2010年开始推出第一款用于PC的APU。随后在索尼Play Station4和5以及微软Xbox XS中推出了定制APU系列 游戏 机,也推出了一些Opteron APU——2013年的X2100和2017年的X3000。
最近,AMD公布的路线图中显示,其将在2023年推出Instinct MI300芯片,这是AMD推出的第一款百亿亿次APU,AMD将其称为“世界上第一个数据中心APU”。
而这个APU是一种将CPU和GPU内核组合到一个封装中的芯片,仔细来说是将基于Zen4的Epyc CPU与使用其全新CDNA3架构的GPU相结合。
AMD表示Instinct MI300预计将比其Instinct MI250X提供超过8倍的AI训练性能提升,与支持Instinct MI200系列的CDNA2 GPU架构相比,用于Instinct MI300的CDNA3架构将为AI工作负载提供超过5倍的性能功耗比提升。
Instinct MI300将于2023年问世。
英伟达Grace超级芯片
一直专注于GPU设计的英伟达,在去年宣布进军基于Arm架构的CPU时引发了一阵轰动。在今年3月,英伟达推出解决HPC和大规模人工智能应用程序的Grace Hopper超级芯片。这款芯片将NVIDIA Hopper GPU与Grace CPU通过NVLink-C2C结合在一个集成模块中。
CPU+GPU的Grace Hopper核心数减半,LPDDR5X内存也只有512GB,但多了显卡的80GBHBM3内存,总带宽可达35TB/s,代价是功耗1000W,每个机架容纳42个节点。
英伟达同样承诺在2023年上半年推出其超级芯片。
从推出的时间节点来看,英特尔Falcon Shores芯片、AMD Instinct MI300、英伟达Grace Hopper超级芯片分别在2024年、2023年、2023年上半年推出。
CPU+GPU的形式,为什么引起了三大巨头的兴趣,纷纷将其布局于数据中心?
首先,在数字经济时代,算力正在成为一种新的生产力,广泛融合到 社会 生产生活的各个方面。数据中心是算力的物理承载,是数字化发展的关键基础设施。全球数据中心新增稳定,2021年全球数据中戏市场规模超过679亿美元,较2020年增长98%。因此,具有巨大市场的数据中心早已被 科技 巨头紧盯。
其次,数据中心会收集大量的数据,因此需要搭建于数据中心的芯片具有极大算力,将CPU与GPU组合可以提高算力。英特尔高级副总裁兼加速计算系统和图形(AXG)集团总经理Raja Koduri的演讲中提及,如果想要成功获得HPC市场,就需要芯片能够处理海量的数据集。尽管,GPU具有强大的计算能力,能够同时并行工作数百个的内核,但如今独立的GPU仍然有一大缺陷,就是大的数据集无法轻松放入独立GPU内存里,需要耗费时间等待显存数据缓慢刷新。
特别是内存问题,将CPU与GPU放入同一架构,能够消除冗余内存副本来改善问题,处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据。统一内存池还意味着不需要第二个内存芯片池,即连接到CPU的DRAM。例如,Instinct MI300将把CDNA3 GPU小芯片和Zen4 CPU小芯片组合到一个处理器封装中,这两个处理器池将共享封装HBM内存。
英伟达官方表示,使用NVLink-C2C互连,Grace CPU将数据传输到Hopper GPU的速度比传统CPU快15倍;但对于数据集规模超大的场景来说,即使有像NVLink和AMD的Infinity Fabric这样的高速接口,由于HPC级处理器 *** 作数据的速度非常快,在CPU和GPU之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离,就可以节约很多能源并提升性能。
AMD表示,与使用分立CPU和GPU的实现相比,该架构的设计将允许APU使用更低的功耗;英特尔同样表示,其Falcon Shores芯片将显着提高带宽、每瓦性能、计算密度和内存容量。
整合多个独立组件往往会带来很多长期收益,但并不只是将CPU与GPU简单整合到一颗芯片中。英特尔、英伟达及AMD的GPU+CPU均是选择了Chiplet方式。
传统上,为了开发复杂的 IC 产品,供应商设计了一种将所有功能集成在同一芯片上的芯片。在随后的每一代中,每个芯片的功能数量都急剧增加。在最新的 7nm 和 5nm 节点上,成本和复杂性飙升。
而使用Chiplet设计,将具有不同功能和工艺节点的模块化芯片或小芯片封装在同一芯片,芯片客户可以选择这些小芯片中的任何一个,并将它们组装在一个先进的封装中,从而产生一种新的、复杂的芯片设计,作为片上系统 (SoC) 的替代品。
正是由于小芯片的特性,三家巨头在自己发展多芯片互连的同时,还展开了定制服务。
英特尔在发布Falcon Shores时介绍,其架构将使用Chiplet方法,采用不同制造工艺制造的多个芯片和不同的处理器模块可以紧密地塞在一个芯片封装中。这使得英特尔可以在其可以放入其芯片的CPU、GPU、I/O、内存类型、电源管理和其他电路类型上进行更高级别的定制。
最特别的是,Falcon Shores可以按需配置不同区块模块,尤其是x86CPU核心、XeGPU核心,数量和比例都非常灵活,就看做什么用了。
目前,英特尔已开放其 x86 架构进行许可,并制定了Chiplet策略,允许客户将 Arm 和 RISC-V 内核放在一个封装中。
最近,AMD同样打开了定制的大门。AMD首席技术官Mark Papermaster在分析师日会议上表示:“我们专注于让芯片更容易且更灵活实现。”
AMD允许客户在紧凑的芯片封装中实现多个芯粒(也称为chiplet或compute tiles )。AMD已经在使用tiles,但现在AMD允许第三方制造加速或其他芯片,以将其与x86 CPU和GPU一起包含在其2D或3D封装中。
AMD的定制芯片战略将围绕新的Infinity Architecture 40展开,它是芯片封装中芯粒的互连。专有的Infinity结构将与CXL 20互连兼容。
Infinity互连还将支持UCIe(Universal Chiplet Interconnect Express)以连接封装中的chiplet。UCIe已经得到英特尔、AMD、Arm、谷歌、Meta等公司的支持。
总体而言,AMD的服务器GPU轨迹与英特尔、英伟达非常相似。这三家公司都在向CPU+GPU组合产品方向发展,英伟达的GraceHopper(Grace+H100)、英特尔的Falcon Shores XPU(混合和匹配CPU+GPU),现在MI300在单个封装上同时使用CPU和GPU小芯片。在所有这三种情况下,这些技术旨在将最好的CPU和最好的GPU结合起来,用于不完全受两者约束的工作负载。
市场研究公司Counterpoint Research的研究分析师Akshara Bassi表示:“随着芯片面积变得越来越大以及晶圆成品率问题越来越重要,多芯片模块封装设计能够实现比单芯片设计更佳的功耗和性能表现。”
Chiplet将继续存在,但就目前而言,该领域是一个孤岛。AMD、苹果、英特尔和英伟达正在将自研的互连设计方案应用于特定的封装技术中。
2018 年,英特尔将 EMIB(嵌入式多硅片)技术升级为逻辑晶圆 3D 堆叠技术。2019 年,英特尔推出 Co-EMIB 技术,能够将两个或多个 Foveros 芯片互连。
AMD率先提出Chiplet模式,在2019年全面采用小芯片技术获得了技术优势。Lisa Su 在演讲时表达了未来的规划,“我们与台积电就他们的 3D 结构密切合作,将小芯片封装与芯片堆叠相结合,为未来的高性能计算产品创建 3D 小芯片架构。”
今年 3 月 2 日,英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立 Chiplet 标准联盟,推出了通用小芯片互连标准 (UCIe),希望将行业聚合起来。
迄今为止,只有少数芯片巨头开发和制造了基于Chiplet的设计。由于先进节点开发芯片的成本不断上升,业界比以往任何时候都更需要Chiplet。在多芯片潮流下,下一代顶级芯片必然也将是多芯片设计。
目前市面上80%的游戏都针对英伟达有优化,同价位下虽然AMD显卡规格更高,但是英伟达显卡的实际性能表现却更好。另外,除了最新发布的RX480,AMD的显卡已经多年没有改进制造工艺,所以发热量和功耗显著大于同级英伟达显卡。(不过RX480似乎要翻身)最后,两家公司的广告营销也有关系。同样是卖显卡,同级显卡下英伟达显卡利润更高,所以JS都喜欢卖N卡。当前,为推进IT支撑系统集约化建设和运营,进一步发挥集中化能力优势,IT云成为运营商IT支撑系统建设的基础架构。但在IT云资源池部署过程中,服务器技术面临多个新挑战,主要体现在以下3个方面。
在性能方面,人工智能(AI)应用快速扩张,要求IT云采用高性能GPU服务器。AI已在电信业网络覆盖优化、批量投诉定界、异常检测/诊断、业务识别、用户定位等场景规模化应用。AI应用需求的大量出现,要求数据中心部署的服务器具有更好的计算效能、吞吐能力和延迟性能,以传统通用x86服务器为核心的计算平台显得力不从心,GPU服务器因此登上运营商IT建设的历史舞台。
在效率成本方面,IT云部署通用服务器存在弊端,催生定制化整机柜服务器应用需求。在IT云建设过程中,由于业务需求增长快速,IT云资源池扩容压力较大,云资源池中的服务器数量快速递增,上线效率亟需提高。同时,传统通用服务器部署模式周期长、部署密度低的劣势,给数据中心空间、电力、建设成本和高效维护管理都带来了较大的挑战。整机柜服务器成为IT云建设的另一可选方案。
在节能方面,AI等高密度应用场景的快速发展,驱动液冷服务器成为热点。随着AI高密度业务应用的发展,未来数据中心服务器功率将从3kW~5kW向20kW甚至100kW以上规模发展,传统的风冷式服务器制冷系统解决方案已经无法满足制冷需求,液冷服务器成为AI应用场景下的有效解决方案。
GPU服务器技术发展态势及在电信业的应用
GPU服务器技术发展态势
GPU服务器是单指令、多数据处理架构,通过与CPU协同进行工作。从CPU和GPU之间的互联架构进行划分,GPU服务器又可分为基于传统PCIe架构的GPU服务器和基于NVLink架构的GPU服务器两类。GPU服务器具有通用性强、生态系统完善的显著优势,因此牢牢占据了AI基础架构市场的主导地位,国内外主流厂商均推出不同规格的GPU服务器。
GPU服务器在运营商IT云建设中的应用
当前,电信业开始推动GPU服务器在IT云资源池中的应用,省公司现网中已经部署了部分GPU服务器。同时,考虑到GPU成本较高,集团公司层面通过建设统一AI平台,集中化部署一批GPU服务器,形成AI资源优化配置。从技术选型来看,目前运营商IT云资源池采用英伟达、英特尔等厂商相关产品居多。
GPU服务器在IT云应用中取得了良好的效果。在现网部署的GPU服务器中,与训练和推理相关的深度学习应用占主要部分,占比超过70%,支撑的业务包括网络覆盖智能优化、用户智能定位、智能营销、智能稽核等,这些智能应用减少了人工投入成本,提升了工作效率。以智能稽核为例,以往无纸化业务单据的人工稽核平均耗时约48秒/单,而AI稽核平均耗时仅约5秒/单,稽核效率提升达 90%。同时,无纸化业务单据人工稽核成本约15元/单,采用GPU进行AI稽核成本约0048元/单,稽核成本降低达968%。
整机柜服务器发展态势及在电信业的应用
整机柜服务器技术发展态势
整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理6个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,使整机柜服务器仅需配置传统机柜式服务器10%的电源数量就可满足供电需要,电源效率可以提升10%以上,且单台服务器的能耗可降低5%。
整机柜服务器在运营商IT云建设中的应用
国内运营商在IT云建设中已经推进了整机柜服务器部署,经过实际应用检验,在如下方面优势明显。
一是工厂预制,交付工时大幅缩短。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从1台上升到几十台,交付效率大大提升。以一次性交付1500台服务器为例,交付工作量可减少170~210人天,按每天配10人计算,现场交付时间可节省约17~21天。
二是资源池化带来部件数量降低,故障率大幅下降。整机柜服务器通过将供电、制冷等部件资源池化,大幅减少了部件数量,带来故障率的大幅降低。图1比较了32节点整机柜服务器与传统1U、2U服务器机型各自的电源部件数量及在一年内的月度故障率情况。由于32节点整机柜服务器含10个电源部件,而32台1U通用服务器的电源部件为64个,相较而言,整机柜电源部件数减少844%。由于电源部件数量的降低,32节点整机柜服务器相对于32台1U通用服务器的月度故障率也大幅缩减。
三是运维效率提升60%以上。整机柜服务器在工厂预制机柜布线,网络线缆在工厂经过预处理,线缆长度精确匹配,理线简洁,接线方式统一规范,配合运维标签,在运维中可以更方便简洁地对节点实施维护 *** 作,有效降低运维误 *** 作,提升运维效率60%以上,并大幅减少发生故障后的故障恢复时间。
液冷服务器技术发展态势及在电信业的应用
液冷服务器技术发展态势
液冷服务器技术也称为服务器芯片液体冷却技术,采用特种或经特殊处理的液体,直接或近距离间接换热冷却芯片或者IT整体设备,具体包括冷板式冷却、浸没式冷却和喷淋式冷却3种形态。液冷服务器可以针对CPU热岛精确定点冷却,精确控制制冷分配,能真正将高密度部署带到前所未有的更高层级(例如20kW~100kW高密度数据中心),是数据中心节能技术的发展方向之一,3种液冷技术对比如表1所示。
液冷服务器在运营商IT建设中的应用
液冷服务器技术目前在我国仍处于应用初期,产业链尚不完备、设备采购成本偏高、采购渠道少、电子元器件的兼容性低、液冷服务器专用冷却液成本高等问题是液冷服务器尚未大规模推广的重要原因。从液冷服务器在运营商数据中心领域的具体应用案例来看,运营商在IT云资源池规划和建设过程中,通常会对液冷服务器的发展现状、技术成熟度等进行分析论证。
考虑到目前液冷服务器规模化应用尚处于起步阶段,需要3~5年的引入期,因此暂时未在IT云资源池建设中进行大规模落地部署,但在部分地区有小规模应用,如中国移动南方基地数据中心已经开展液冷服务器试点应用,中国联通研究院也在开展边缘数据中心服务器喷淋式液冷系统的开发。未来,随着IT云建设规模、建设密度的继续攀升,以及液冷产业生态体系的逐步成熟,液冷服务器在IT云建设中将有更大的应用空间。
总体来看,运营商IT云资源池建设对服务器计算性能、延迟、吞吐、制冷、定制化、分布式部署等方面都提出了更高要求。未来,GPU服务器、定制化整机柜服务器、液冷服务器等新兴服务器技术将快速迭代,为运营商数据中心服务器技术的发展和演进带来新的思路和路径。
RTX3060和3060TI的差别就很大,3060采用的是GA106的核心架构和3060TI采用的是和RTX3070同宗同源的GA104的核心架构,流处理器的差别也非常大,3060TI是4864颗流处理器RTX3060TI有RTX3070 85%的性能,差距不是很大,也就是15%。具体购买看性价比和预算了,现在溢价比较高。
RTX3060基于的是GA106核心,对比RTX3060Ti的GA104核心稍小,砍掉了一半的GPC单元,不过每个GPC单元又增加了两组SM单元,接近RTX3060Ti性能基本不太可能。
英伟达RTX30系列显卡发布会大概有半年左右,陆续为我们带来了RTX3090、RTX3080、RTX3070以及RTX3060Ti,由于虚拟币价不断冲高,有利可图的矿工们不断疯狂的买进
说这么多:下面重点看一下
3060 的显存,一个超越 RTX 3080 的存在。 12 GB 显存看着牛逼,但是对玩游戏来说,以 3060 的性能,
12 GB 显存看着牛逼,但是对玩游戏来说,以 3060 的性能,这么多的显存其实一点卵用都没有。
我认为这很可能是一种营销策略,因为 3060 的显存位宽为 192bit,和这个位宽常见的搭配容量是 6GB 或者是 12GB,6GB 拿到现在也显得有些小,所以老黄估摸着那就多给一点吧,实属无奈的选择。
至于为什么是 12GB,而不是 8GB
机器之心报道
机器之心编辑部
「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。
4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:
如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。
「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。
英伟达也要做 CPU 了
Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。
「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。
Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。
英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。
据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。
基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。
美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。
GPU+CPU+DPU,三管齐下
「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」
除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。
黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。
对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」
最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。
英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。
Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。
与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。
不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。
英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。
「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。
英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。
SegmentFault 思否报道丨公众号:SegmentFault
是他,还是那个男人,那个熟悉的皮夹克。
5 月 14 日 晚,黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前和大家见面了。
本届 GTC 从预热开始就不走寻常路,黄仁勋在大会前一天晒出了自己从烤箱里拿出了 全新的安培(Ampere)架构 GPU NVIDIA A100 。
令人颇感意外的是,虽然无法举办线下活动,英伟达竟然连线上直播都懒得办,直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。
英伟达的首款安培架构 GPU 可以算「史上最强」了,基于 7nm 工艺制程,拥有 540 亿晶体管,面积为826mm²,与 Volta 架构相比性能提升了 20 倍 ,既可以做训练也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍,达到195万亿次/秒 。
多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU,根据任务不同提供不同的计算力,实现最佳利用率和投资回报率的最大化。
NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍。
英伟达将 NVIDIA A100 的特性总结为以下 5 点:
黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃, 集 AI 训练和推理于一身,并且其性能相比于前代产品提升了高达 20 倍 。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时,降低数据中心的成本。”
NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它还可用于数据分析,科学计算和云图形,并已全面投产并交付给全球客户。
全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中,其中包括阿里云、AWS、百度云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器 ,每台 DGX A100 可以分割为多达 56 个独立运行的实例,还集合了 8 个 NVIDIA A100 GPU,每个 GPU 均支持 12 路 NVLink 互连总线。
据了解,与其他高端 CPU 服务器相比,DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。
黄仁勋说:“AI已经被应用到云计算、 汽车 、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”
如此强大的 DGX-A100 AI 售价自然也不便宜,标价 199 万美元,约合人民币 141 万元。
此外,黄仁勋还提到了英伟达新一代 DGXSuper POD 集群,由 140 台DGXA100系统组成,AI算力达 700 Petaflops,相当于数千台服务器的性能 。
据了解,首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室,用于新冠病毒疫情相关的研究。
除了以上两款重磅产品,黄仁勋还宣布推出了 NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。
英伟达此次还推出了众多 AI 领域相关产品,包括 以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。
1以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡,可提供两个 25Gb/s 端口或一个 50Gb/s 端口。
2EGX 边缘 AI 平台
EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品,可接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。
3Spark 30
英伟达还宣布在 Spark 30 上支持 NVIDIA GPU 加速,基于 RAPIDS 的 Spark 30,打破了提取,转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90%。
4NVIDIA Jarvis
黄仁勋在发布会中详细介绍了 NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥英伟达 AI 平台的强大功能,创建实时多模态对话式 AI。
5Misty 交互 AI
现场演示中,一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。
自动驾驶方面,英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解,小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。
英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。
英伟达这场时隔 3 年的发布会可谓诚意满满,首次推出的安培架构给足了惊喜,性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。
虽然发布会并不是现场直播,但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多,赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业,强大的 AI 生态正在形成。
中国工程院院士倪光南曾表示:「芯片设计门槛极高,只有极少数企业能够承受中高端芯片研发成本,这也制约了芯片领域创新。」
英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力,又一次树立了性能标杆。
根据 Gartner 的预测数据 ,未来 5 年内全球人工智能芯片市场规模将呈飙升趋势 ,自 2018 年的 427 亿美元 ,升高至 343 亿美元 ,增长已超过 7 倍,可见 AI 芯片市场有较大增长空间。
尽管与西方发达国家相比,中国的 AI 芯片研发还存在一定差距,但过去两年中,中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。
但芯片开发极具复杂性,中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明,中国仍需要取得重大进展,才能在半导体领域与美国匹敌。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)