用于语义分割的分层多尺度注意力

用于语义分割的分层多尺度注意力,第1张

1GPU:计算机图显核心
11 GPU:计算机图形显示核心
GPU基本概念:图形处理器(graphics processing unit,缩写GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
GPU是显卡的处理器:显卡全称显示适配卡,又称显示适配器,用于协助CPU进行图像处理,作用是将CPU送来的图像信号经过处理再输送到显示器上,由主板连接设备、监视器连接设备、处理器和内存组成,GPU即是显卡处理器。
12 GPU擅长大规模并发计算
GPU工作原理:GPU的工作通俗的来说就是完成3D图形的生成,将图形映射到相应的像素点上,对每个像素进行计算确定最终颜色并完成输出,一般分为顶点处理、光栅化计算、纹理贴图、像素处理、输出五个步骤。GPU采用流式并行计算模式,可对每个数据行独立的并行计算。
GPU与CPU区别:CPU基于低延时设计,由运算器(ALU)和控制器(CU),以及若干个寄存器和高速缓冲存储器组成,功能模块较多,擅长逻辑控制,串行运算。GPU基于大吞吐量设计,拥有更多的ALU用于数据处理,适合对密集数据进行并行处理,擅长大规模并发计算,因此GPU也被应用于AI训练等需要大规模并发计算场景。
13 GPU可分为独立GPU和集成GPU
独立GPU:独立GPU一般封装在独立的显卡电路板上,使用专用的显示存储器,独立显卡性能由GPU性能与显存带宽共同决定。一般来讲,独立GPU的性能更高,但因此系统功耗、发热量较大。
集成GPU:集成GPU常和CPU共用一个Die,共享系统内存。集成GPU的制作由CPU厂家完成,因此兼容性较强,并且功耗低、发热量小。但如果显卡运行需要占用大量内存,整个系统运行会受限,此外系统内存的频率通常比独立显卡的显存低很多,因此一般集成GPU的性能比独立GPU更低。
14 GPU广泛运用在图显和并行计算场景
GPU拥有单一的强大并行计算能力,所以用途往往是需要大规模并行计算的场景。早期GPU多被用于2D和3D图形的计算和处理,因为图形数据的处理往往涉及到大量的大型矩阵运算,计算量大但易于并行化。近年由于大数据、人工智能发展,GPU也常常被用于需要大量重复计算的数据挖掘领域,如机器学习,深度学习等。
GPU使用场景:GPU被广泛地运用于PC、服务器、移动等领域。其中服务器GPU可做专业图形处理、计算加速、深度学习等应用,以独立GPU为主;移动端GPU主要采用集成GPU;PC根据使用用途不同,既可以搭载独立GPU,也可以使用集成GPU。
15 全球GPU巨头:NVIDIA、AMD
NVIDIA(英伟达):创立于1993年,1999年发明了GPU,最初专注PC图形,后来拓展到密集计算领域,Nvidia利用GPU创建了科学计算、人工智能、数据科学、自动驾驶汽车、机器人技术、AR和VR的平台。 Nvidia是目前全球最大的独立GPU供应商,2020年营收1668亿美元,2021Q2 Nvidia全球独立GPU市场份额达到83%。
AMD(超威半导体):成立于1969年,目前业内稀缺的可以提供高性能CPU、高性能独立显卡GPU、主板芯片组三大组件的半导体公司。2020年AMD营收976亿美元,其中计算和图形(包括CPU、GPU、APU等)业务营收643亿美元,2021Q2 AMD全球独立GPU市场份额达到17%。
2GPU两大应用场景:图显、计算
21 2020全球GPU市场规模接近千亿美元
2020年全球GPU市场规模达到9991亿美元。3D图像显示、人工智能深度学习的需求支撑GPU市场持续增长,根据Verified Market Research数据,2020年全球GPU市场规模达到9991亿美元,预计2028年达到15816亿美元,CAGR为59%。
测算2020年中国大陆独立GPU市场规模约235亿美元。中国是全球GPU市场重要组成部分,2020年Nvidia、AMD在中国大陆收入占比分别为233%、239%,我们假设中国大陆独立GPU市场占全球235%,测算2020年中国大陆独立GPU市场规模约为235亿美元。
22 PC GPU:2020年全球出货394亿片
PC(个人电脑)是GPU重要应用场景,根据Jon Peddie Research(JPR)数据,2020年全球GPU出货394亿片,同比增长179%。
23 PC GPU:Nvidia和AMD占据独立GPU市场
Intel领导集成GPU市场。Intel(英特尔)是全球最大的CPU制造商,2021Q2占据全球775%的x86 CPU市场,集成GPU集成在CPU中,Intel凭借CPU市场地位,占据全球PC GPU大部分市场。根据JPR数据,2021Q2 Intel占据全球683%的PC GPU市场份额,Nvidia和AMD市场份额分别为152%、165%。
Nvidia和AMD占据独立GPU市场。在独立GPU领域,Nvidia具备明显的份额领先,2021Q2市占率达到83%。2006年AMD收购ATI,2010年放弃ATI品牌后推出AMD Radeon(镭龙)独立显卡系列,2021Q2 AMD独立PC GPU市场份额17%。
24 AI服务器与加速芯片
AI服务器:通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、机器学习等AI应用场景提供强大的算力支持,支撑AI算法训练和推理过程。
AI加速芯片:由于CPU并不适合大规模并行计算,因此需要加速芯片执行AI算法,目前AI加速芯片主要包括图形处理器(graphics processing unit,GPU)、现场可编程门阵列(field-programmable gate array,FPGA)、专用集成电路(application specific integrated circuits,ASIC)、神经拟态芯片等。
25 GPU是AI服务器首选加速方案
服务器是AI核心基础设施。根据IDC数据,2020年中国AI基础设施市场规模为393亿美元,同比增长268%,并将在2024年达到780亿美元,其中2020年服务器市场规模占AI基础设施的87%以上,承担着最为重要的角色。
互联网行业是AI服务器最大采购行业。根据IDC数据,2020年上半年,互联网占整体加速计算服务器市场近60%的份额,同比增持超过100%;政府行业和服务业分别依次位居第二位和第三位。
GPU服务器是AI加速方案首选。IDC预计2021年中国GPU服务器占比919%左右的市场份额,是数据中心AI加速方案首选。根据IDC数据,2019年中国GPU服务器市场规模达到20亿美元,预计2024年将达到64亿美元。
26 AI服务器通常配置多个GPU芯片
GPU加速服务器能够提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景,例如深度学习、科学计算、3D动画渲染、CAE等应用场景。
3NVIDIA:全球GPU巨头
31 全球GPU巨头
Nvidia成立于1993年,1999年上市,市值近10年增长超过83倍,近6年增长超过49倍。截至2021年11月5日,Nvidia总市值7438亿美元,总市值美股排名第七,是目前全球市值最大的半导体公司。(报告来源:未来智库)
32 三大因素推动地位提升
技术革新、场景拓展、外延并购,Nvidia引领全球GPU发展。
GPU架构:Nvidia坚持每2-3年推出一代新的GPU架构,持续保持技术领先,新的Ampere已经采用7nm工艺;应用场景:从最初图形处理到通用计算,再到AI深度学习和自动驾驶,Nvidia不断推动GPU应用场景的突破;外延并购:2000-2008年Nvidia密集收购额多家公司,涵盖显卡、图形处理、半导体等多个领域,2020年宣布计划收购ARM。
33 近年业绩高速增长
Nvidia产品主要分为两大类:图形处理、计算&网络。下游市场包括游戏、专业可视化、数据中心、汽车四大类。
2020年Nvidia营收1668亿美元(yoy+527%),净利润433亿美元(yoy+549%),其中图形处理业务营收983亿美元,计算&网络业务营收684亿美元。除去2019年游戏市场需求波动造成业绩下滑外,Nvidia近5年营收、利润均保持较快增长。
得益于基于Ampere架构新GPU产品带动游戏业务高增,以及数据中心对算力需求旺盛,2021上半年Nvidia营收、净利润快速增长。
34 游戏是最大市场,数据中心市场增速较快
Nvidia下游市场分为四类:游戏、专业可视化、数据中心、汽车,各市场重点产品如下:
游戏:GeForce RTX/GTX系列GPU(PCs)、GeForce NOW(云游戏)、SHIELD(游戏主机);专业可视化:Quadro/RTX GPU(企业工作站);数据中心:基于GPU的计算平台和系统,包括DGX(AI服务器)、HGX(超算)、EGX(边缘计算)、AGX(自动设备);汽车:NVIDIA DRIVE计算平台,包括AGX Xavier(SoC芯片)、DRIVE AV(自动驾驶)、DRIVE IX(驾驶舱软件)、Constellation(仿真软件)。
35 计算业务驱动高成长
计算业务是Nvidia成长的主要驱动力:数据中心已成规模,智能汽车将进入收获期。
在数据中心市场,Nvidia拥有芯片、硬件、硬件的全栈布局。得益于全球AI应用场景的快速增加,对算力的需求飙升。是Nvidia成长最快的市场,2020年营收达到约6696亿美元,近4年CAGR达到685%,远高于游戏市场的176%。2020年Nvidia数据中心市场营收占比已经超过40%,预计未来仍将继续提升。
在智能汽车市场, Nvidia形成了全栈式自动驾驶解决方案。AGX Xavier芯片于2018年开始出货,下一代自动驾驶芯片Orin计划用于2022年量产,算力将达到254TOPS,目前已经获得蔚来、理想、沃尔沃、奔驰等多个整车厂定点项目。我们认为2022年高阶自动驾驶汽车或将集中落地,Nvidia自动驾驶将进入收获期。
36 中国大陆收入贡献提升
Nvidia中国大陆收入快速增长。2020年Nvidia来自中国大陆收入3886亿美元,同比增长423%,近4年CAGR达到314%,同期Nvidia整体营收CAGR为246%。
Nvidia中国大陆收入占比呈上升趋势。2020年Nvidia中国大陆收入占比达到233%,相比于2016年的189%提升44pct,2021上半年Nvidia中国大陆收入占比256%,上升趋势明显。
我们预计中国大陆占比仍将提升。图显业务层面,人均收入提升将带动PC需求增加;计算业务层面,目前中国大陆在AI算法、应用层面具有领先优势,自动驾驶场景也将率先得到释放。
4景嘉微:国产GPU领军
41 国内唯一商用GPU公司
景嘉微成立于2006年,公司主营业务分为图形显控、小型专用化雷达、GPU芯片三类。其中图显、雷达产品主要面向军用市场,GPU芯片产品包括JM5400、JM7200,其中JM5400主要应用于公司图显模块中,JM7200成功拓展了民用和信创市场。2021年9月,公司第三代GPU芯片JM9成功流片,目前正在进行性能测试。
42 两个系列、三款GPU量产应用
景嘉微已完成两个系列、三款GPU芯片量产应用。第一代GPU产品JM5400于2014年流片成功,主要支撑军用装备,已在国产军用飞机上实现了对ATI M9、M54、M72等芯片的替代;第二代产品JM7200于2018年8月流片成功,性能与 Nvidia的GT640显卡相近。在JM7200基础上,公司又推出

你想要什么品牌的服务器呢,不同的品牌价格差异还是比较大的,不过我觉得还是应该找综合实力强的,售后服务还是要跟上的。我们公司现在用的思腾合力的服务器,性价比还是比较高,不仅拥有自主品牌GPU服务器及通用X86服务器,而且还是NVIDIADGX系列产品官方授权经销商,型号还是比较多的。

上海世纪互联新上线的GPU云平台算力就很强,他们用的是NVDIA的DGX A100,是现目前市场上竞争力十分强的人工智能服务器,单台的算力就有5Peta Flops,多台组成集群的话,算力更加吓人,比起市面上很多的云平台都要强很多。

Supermicro强调在伺服器设计针对多重GPU提高散热效率,并且推动人工智慧、深度学习与高效能运算稳定性表现,同时也能针对不同伺服器布署需求提供1U、2U、4U和10U机架式GPU伺服器系统。

随着NVIDIA正式揭晓「Ampere」显示架构,并且推出A100GPU与DGXA100超级电脑后,Supermicro也宣布采用A100GPU设计的HGXA100系统,包含代号Redstone、2U形式设计的HGXA1004GPU主机板,以及代号Delta、4U形式设计的HGXA1008GPU主机板。

其中,HGXA1004GPU主机板搭载4张直连式NVIDIAA100GPU,使用能达到最高性能的PCIe40,搭配NVLink技术串接GPU对应加速运算、网路储存性能,支援1个PCIe40x8,以及最多4个PCIe40x16扩充插槽,可配合使用GPUDirectRDMA高速网路卡与InfiniBandHDR等储存装置,支援最高每秒200GB的传输频宽。

而针对人工智慧与机器学习设计的HGXA1008GPU主机板,则可支援8张A100GPU,并且采用NVSwitch进行多对多串接,借此让GPU对GPU传输频宽最高可达每秒600GB,另外也能配合适用于GPUDirectRDMA高速网卡的8个扩充插槽,可对应10个PCIe40x16扩充插槽。

另外,Supermicro也提供包含1U、2U、4U和10U形式设计的多重GPU伺服器,并且导入采用NVIDIA新款A100GPU,同时也推出A+GPU系统,支援多达8张全高、双宽(或单宽)形式的GPU,透过直连式PCIe40x16连接CPU至GPU通道,借此减少延迟、以最高频宽提升传输效率。

Supermicro强调在伺服器设计针对多重GPU提高散热效率,并且推动人工智慧、深度学习与高效能运算稳定性表现,同时也能针对不同伺服器布署需求提供1U、2U、4U和10U机架式GPU伺服器系统,另外也包含Utra、BigTwin与支援GPU的嵌入式系统,以及适用于8USuperBl的GPU刀锋模组。

针对目前边缘运算部分,Supermicro也准备将换上「Ampere」显示架构新款EGXA100加入旗下边缘伺服器产品组合。

机器之心报道

机器之心编辑部

「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。

4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:

如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。

「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。

英伟达也要做 CPU 了

Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。

「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。

Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。

英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。

目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。

据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。

基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。

美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。

GPU+CPU+DPU,三管齐下

「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」

除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。

黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。

对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」

最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。

英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。

Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。

与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。

不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。

英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。

「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。

英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13444093.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-07
下一篇 2023-08-07

发表评论

登录后才能评论

评论列表(0条)

保存