比原计划晚了将近 2 个月,英伟达 GTC 2020 终于在 5 月 14 日回归。
不过这一次开发者们没办法在线下集会,只能通过线上直播观看「皮衣教主」黄仁勋的主题演讲。老黄此次是在他硅谷的家中完成了这场别开生面的「Kitchen Keynote」。
虽然是厨房举行,英伟达依然爆出「核d」,发布了全新一代的 GPU 架构 Ampere(安培)。
在自动驾驶方向上,英伟达通过两块 Orin SoC 和两块基于安培架构的 GPU 组合,实现了前所未有的2000 TOPS算力的 Robotaxi 计算平台,整体功耗为800W。
有业界观点认为,实现 L2 自动驾驶需要的计算力小于 10 TOPS,L3 需要的计算力为 30 - 60 TOPS,L4 需要的计算力大于 100 TOPS,L5 需要的计算力至少为 1000 TOPS。
现在的英伟达自动驾驶计算平台已经建立起了从10TOPS/5W,200TOPS/45W到2000 TOPS/800W的完整产品线,分别对应前视模块、L2+ADAS以及Robotaxi的各级应用。
从产品线看,英伟达Drive AGX将全面对标 MobileyeEyeQ系列,希望成为量产供应链中的关键厂商。
1、全新 GPU 架构:Ampere(安培)
2 个月的等待是值得的,本次 GTC 上,黄仁勋重磅发布了英伟达全新一代 GPU 架构 Ampere(安培)以及基于这一架构的首款 GPU NVIDIA A100。
A100 在整体性能上相比于前代基于 Volta 架构的产品有 20 倍的提升,这颗 GPU 将主要用于数据分析、专业计算以及图形处理。
在安培架构之前,英伟达已经研发了多代 GPU 架构,它们都是以科学发展史上的伟人来命名的。
比如 Tesla(特斯拉)、Fermi(费米)、Kepler(开普勒)、Maxwell(麦克斯维尔)、Pascal(帕斯卡)、Volta(伏特)以及 Turing(图灵)。
这些核心架构的升级正是推动英伟达各类 GPU 产品整体性能提升的关键。
针对基于安培架构的首款 GPU A100,黄仁勋细数了它的五大核心特点:
集成了超过 540 亿个晶体管,是全球规模最大的 7nm 处理器;引入第三代张量运算指令 Tensor Core 核心,这一代 Tensor Core 更加灵活、速度更快,同时更易于使用;采用了结构化稀疏加速技术,性能得以大幅提升;支持单一 A100 GPU 被分割为多达 7 块独立的 GPU,而且每一块 GPU 都有自己的资源,为不同规模的工作提供不同的计算力;集成了第三代 NVLink 技术,使 GPU 之间高速连接速度翻倍,多颗 A100 可组成一个巨型 GPU,性能可扩展。
这些优势累加起来,最终让 A100 相较于前代基于 Volta 架构的 GPU 在训练性能上提升了6 倍,在推理性能上提升了7 倍。
最重要的是,A100 现在就可以向用户供货,采用的是台积电的 7nm 工艺制程生产。
阿里云、百度云、腾讯云这些国内企业正在计划提供基于 A100 GPU 的服务。
2、Orin+安培架构 GPU:实现 2000TOPS 算力
随着英伟达全新 GPU 架构安培的推出,英伟达的自动驾驶平台(NVIDIA Drive)也迎来了一次性能的飞跃。
大家知道,英伟达此前已经推出了多代 Drive AGX 自动驾驶平台以及 SoC,包括Drive AGX Xavier、Drive AGX Pegasus以及Drive AGX Orin。
其中,Drive AGX Xavier 平台包含了两颗 Xavier SoC,算力可以达到 30TOPS,功耗为 30W。
最近上市的小鹏 P7 上就量产搭载了这一计算平台,用于实现一系列 L2 级自动辅助驾驶功能。
Drive AGX Pegasus 平台则包括了两颗 Xavier SoC 和两颗基于图灵架构的 GPU,算力能做到 320TOPS,功耗为 500W。
目前有文远知行这样的自动驾驶公司在使用这一计算平台。
在 2019 年 12 月的 GTC 中国大会上,英伟达又发布了最新一代的自动驾驶计算 SoC Orin。
这颗芯片由 170 亿个晶体管组成,集成了英伟达新一代 GPU 架构和 Arm Hercules CPU 内核以及全新深度学习和计算机视觉加速,最高每秒可运行 200 万亿次计算。
相较于上一代 Xavier 的性能,提升了 7 倍。
如今,英伟达进一步将自动驾驶计算平台的算力往前推进,通过将两颗 Orin SoC 和两块基于安培架构的 GPU 集成起来,达到惊人的 2000TOPS 算力。
相较于 Drive AGX Pegasus 的性能又提升了 6 倍多,相应地,其功耗为 800W。
按一颗 Orin SoC 200TOPS 算力来计算,一块基于安培架构的 GPU 的算力达到了 800TOPS。
正因为高算力,这个平台能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。
对于高阶自动驾驶技术的发展而言,英伟达正在依靠 Orin SoC 和安培 GPU 架构在计算平台方面引领整个行业。
当然,作为一个软件定义的平台,英伟达 Drive AGX 具备很好的可扩展性。
特别是随着安培 GPU 架构的推出,该平台已经可以实现从入门级 ADAS 解决方案到 L5 级自动驾驶出租车系统的全方位覆盖。
比如英伟达的 Orin 处理器系列中,有一款低成本的产品可以提供 10TOPS 的算力,功耗仅为 5W,可用作车辆前视 ADAS 的计算平台。
换句话说,采用英伟达 Drive AGX 平台的开发者在单一平台上仅基于一种架构便能开发出适应不同细分市场的自动驾驶系统,省去了单独开发多个子系统(ADAS、L2+ 等系统)的高昂成本。
不过,想采用 Orin 处理器的厂商还得等一段时间,因为这款芯片会从 2021 年开始提供样品,到2022 年下半年才会投入生产并开始供货。
3、英伟达自动驾驶「朋友圈」再扩大
本届 GTC 上,英伟达的自动驾驶「朋友圈」继续扩大。
中国自动驾驶公司小马智行(Ponyai)、美国电动车创业公司Canoo和法拉第未来(Faraday Future)加入到英伟达的自动驾驶生态圈,将采用英伟达的 Drive AGX 计算平台以及相应的配套软件。
小马智行将会基于 Drive AGX Pegasus 计算平台打造全新一代 Robotaxi 车型。
此前,小马智行已经拿到了丰田的 4 亿美金投资,不知道其全新一代 Robotaxi 会不会基于丰田旗下车型打造。
美国的电动汽车初创公司 Canoo 推出了一款专门用于共享出行服务的电动迷你巴士,计划在 2021 年下半年投入生产。
为了实现辅助驾驶的系列功能,这款车型会搭载英伟达 Drive AGX Xavier 计算平台。前不久,Canoo 还和现代汽车达成合作,要携手开发电动汽车平台。
作为全球新造车圈内比较特殊存在的法拉第未来,这一次也加入到了英伟达的自动驾驶生态圈。
FF 首款量产车 FF91 上的自动驾驶系统将基于 Drive AGX Xavier 计算平台打造,全车搭载了多达 36 颗各类传感器。
法拉第未来官方称 FF91 有望在今年年底开始交付,不知道届时会不会再一次跳票。
作为 GPU 领域绝对霸主的英伟达,在高算力的数据中心 GPU 以及高性能、可扩展的自动驾驶计算平台的加持下,已经建起了一个完整的集数据收集、模型训练、仿真测试、远程控制和实车应用的软件定义的自动驾驶平台,实现了端到端的完整闭环。
同时,其自动驾驶生态圈也在不断扩大,包括汽车制造商、一级供应商、传感器供应商、Robotaxi 研发公司和软件初创公司在内的数百家自动驾驶产业链上的企业已经在基于英伟达的计算硬件和配套软件开发、测试和应用自动驾驶车辆。
未来,在整个自动驾驶产业里,以计算芯片为核心优势,英伟达的触角将更加深入,有机会成为产业链条上不可或缺的供应商。
本文来源于汽车之家车家号作者,不代表汽车之家的观点立场。咱们首先来看看阿里云发布首款云电脑-“无影”,简而言之,“无影”是一台可以放进口袋的超级电脑,普通电脑能做的事它能做,普通电脑不能做的事它也能做,只有一张卡片的大小,通过指纹启动并接入到云。虽然它本身并没有cpu,内存,也没有硬盘,但是它拥有接近近无穷的算力,能够同时兼容windows,linux还有我们手里的android,所有数据的存储和运算都在云端,小伙伴是不是觉得很神奇?下面小酷就来掰扯掰扯什么最近火爆的云电脑。
其实云电脑并没有我们想象中的那么神奇,早在2011年,谷歌就推出了一种叫“Chromebook”的云端笔记本电脑,但当时的网络环境和产业生态都无法支撑这款产品真正成功,毕竟这种“离开网络就变板砖”的“上网本“,让用户感觉很鸡肋。
所以,在这里我们可以看到,云电脑一个非常重要的要素——网络,是的,云电脑在没有网络的情况下就是一块没有任何用处的板砖,当然,板砖还能用来砸核桃,但这个。。。言归正传,以阿里的”无影“为例,阿里云拥有海量的硬件设备,所以你完全不必担心云电脑的运算能力,假设你现在正在使用云电脑渲染一段视频,你点击渲染按钮的时候其实就只是通过网络发送一个指令给到云端服务器(即真实的硬件),服务器使用他自己的硬件对视频进行渲染。整个过程打个不是非常恰当的比方,就相当于你家里有性能很强的电脑,但是太大不方便带出来办公,于是你带了一个遥控器出门,在有网络的情况下,遥控器能够远程启动家里的那台电脑,并能将家里电脑的画面实时显示过来,这样你就能控制这台电脑啦!是不是很方便呢?而你手里的遥控器其实就是现在我们说的云电脑,而你家里的高性能电脑其实就是阿里云的服务器。小伙伴们理解了吗?
所以说网络在其中扮演了一个非常重要的角色,如果你的网络非常的慢,即使云端的运算能力非常的强,你看到的画面也是一卡一卡的,让人很难受,同时,如果你的网络延迟非常的高,云端已经将视频渲染完毕你可能都不知道。而我们的5G网络同时拥有这两个特点,高网速,低延时,这就在很大程度上促进云电脑的实用化和商业化
既然大家都知道云电脑的大致原理了,想必这个问题是不难回答的。对运算需求很高的时候,通过云电脑能使我们事半功倍。比如做视频的渲染,可能普通计算机需要花好几个小时,但是云电脑可能几分钟就渲染完毕。再比如说你要玩一款超大型的网游,由于5g的时延非常的低,高清的 游戏 画面在经过高速处理之后能够实时的将画面返回过来,可以获得更优质的 游戏 体验,这也是我们现在能够经常听到的”云 游戏 “,想玩大型的网络 游戏 再也不需要高性能的电脑了,一张卡片大小的云电脑就可以帮你搞定!当然,云电脑能做的还有很多,这里就不一一例举了,如果你有更好的应用场景,或许你就站在了下一个风口哦。。
小伙伴如果有什么想法,欢迎留言,如果还有小伙伴想了解的数码,硬件,软件知识,留言告诉小酷哈。。
SegmentFault 思否报道丨公众号:SegmentFault
是他,还是那个男人,那个熟悉的皮夹克。
5 月 14 日 晚,黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前和大家见面了。
本届 GTC 从预热开始就不走寻常路,黄仁勋在大会前一天晒出了自己从烤箱里拿出了 全新的安培(Ampere)架构 GPU NVIDIA A100 。
令人颇感意外的是,虽然无法举办线下活动,英伟达竟然连线上直播都懒得办,直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。
英伟达的首款安培架构 GPU 可以算「史上最强」了,基于 7nm 工艺制程,拥有 540 亿晶体管,面积为826mm²,与 Volta 架构相比性能提升了 20 倍 ,既可以做训练也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍,达到195万亿次/秒 。
多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU,根据任务不同提供不同的计算力,实现最佳利用率和投资回报率的最大化。
NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍。
英伟达将 NVIDIA A100 的特性总结为以下 5 点:
黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃, 集 AI 训练和推理于一身,并且其性能相比于前代产品提升了高达 20 倍 。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时,降低数据中心的成本。”
NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它还可用于数据分析,科学计算和云图形,并已全面投产并交付给全球客户。
全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中,其中包括阿里云、AWS、百度云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器 ,每台 DGX A100 可以分割为多达 56 个独立运行的实例,还集合了 8 个 NVIDIA A100 GPU,每个 GPU 均支持 12 路 NVLink 互连总线。
据了解,与其他高端 CPU 服务器相比,DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。
黄仁勋说:“AI已经被应用到云计算、 汽车 、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”
如此强大的 DGX-A100 AI 售价自然也不便宜,标价 199 万美元,约合人民币 141 万元。
此外,黄仁勋还提到了英伟达新一代 DGXSuper POD 集群,由 140 台DGXA100系统组成,AI算力达 700 Petaflops,相当于数千台服务器的性能 。
据了解,首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室,用于新冠病毒疫情相关的研究。
除了以上两款重磅产品,黄仁勋还宣布推出了 NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。
英伟达此次还推出了众多 AI 领域相关产品,包括 以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。
1以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡,可提供两个 25Gb/s 端口或一个 50Gb/s 端口。
2EGX 边缘 AI 平台
EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品,可接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。
3Spark 30
英伟达还宣布在 Spark 30 上支持 NVIDIA GPU 加速,基于 RAPIDS 的 Spark 30,打破了提取,转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90%。
4NVIDIA Jarvis
黄仁勋在发布会中详细介绍了 NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥英伟达 AI 平台的强大功能,创建实时多模态对话式 AI。
5Misty 交互 AI
现场演示中,一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。
自动驾驶方面,英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解,小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。
英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。
英伟达这场时隔 3 年的发布会可谓诚意满满,首次推出的安培架构给足了惊喜,性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。
虽然发布会并不是现场直播,但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多,赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业,强大的 AI 生态正在形成。
中国工程院院士倪光南曾表示:「芯片设计门槛极高,只有极少数企业能够承受中高端芯片研发成本,这也制约了芯片领域创新。」
英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力,又一次树立了性能标杆。
根据 Gartner 的预测数据 ,未来 5 年内全球人工智能芯片市场规模将呈飙升趋势 ,自 2018 年的 427 亿美元 ,升高至 343 亿美元 ,增长已超过 7 倍,可见 AI 芯片市场有较大增长空间。
尽管与西方发达国家相比,中国的 AI 芯片研发还存在一定差距,但过去两年中,中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。
但芯片开发极具复杂性,中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明,中国仍需要取得重大进展,才能在半导体领域与美国匹敌。
阿里云ECS服务器,基础版本 1核 1GB 1M带宽 40G云盘 836一年,新人专享330元/年;
标准版:1核 2GB 1M带宽 新人专享价660元/年(阿里云服务器价格表参考);
高级版:2核 4GB 1M带宽 新人专享价8256元/年!
个人建站先买个基本版试试,还有更高企业级配置:
突发性能型:轻量级网站、数据库等低负载应用场景的最佳性价比实例
1核2G 1M 固定宽带40GB 高效云盘¥78594/年;
通用性:适合多种场景的高性能高性价比实例类型,满足多样需求
2核 4G 1M固定宽带40GB 高效云盘¥281094/年;
高主频型:CPU睿频最高可达35GHz,高计算性能场景的首选
4核8G 1M 固定宽带40GB ssd云盘 ¥652314/年;
本地SSD型:专为对存储IO性能有极高要求的关键业务而设计
8核64G 11788G SSD1M 固定宽带40GB ssd云盘 ¥2077914/年
你好,很高兴为你解答:这要看什么用途了哦。我用的阿里云代理思朴科技的服务器。当初选择时,也是根据我的需求选择的配置。你不说用途,只能给参考哦
希望能够帮助到你
望采纳黄仁勋终于公布了NVIDIA新一代架构与核心,当然这次是面向HPC高性能计算、AI人工智能的“Hopper”,对应核心编号“GH100”,同时发布的还有基于新核心的加速计算卡“H100”、AI计算系统“DGX H100”。
与传闻不同,GH100核心采用的其实是台积电目前最先进的4nm工艺,而且是定制版,CoWoS 25D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。
完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计18432个。
显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。
Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。
扩展互连支持PCIe 50、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 50,相比A100也多了一半。整卡对外总带宽49TB/s。
性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。
H100计算卡采用SXM、PCIe 50两种形态,其中后者功耗高达史无前例的700W,相比A100多了整整300W。
按惯例也不是满血,GPC虽然还是8组,但是SXM5版本只开启了62组TPC(魅族GPC屏蔽一组TPC)、128组SM,总计有15872个CUDA核心、528个Tensor核心、50MB二级缓存。
PCIe 50版本更是只有57组TPC,SM虽然还是128组,但是CUDA核心只有14952个,Tensor核心只有456个。
DGX H100系统集成八颗H100芯片、搭配两颗PCIe 50 CPU处理器(Intel Sapphire Rapids四代可扩展至器),拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。
性能方面,AI算力32PFlops(每秒32亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 16PFlops(每秒16千万亿次),FP8 32PFlops(每秒32千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能36TFlops。
PCIe 50版本的性能基本都再下降20%。
同时配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,405亿/秒信息
DGX H100是最小的计算单元,为了扩展,这一次NVIDIA还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。
这么一套系统内,还有205TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。
系统合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。
云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)