俗话说,万事开头难。只有成功实现从0到1的巨大突破,才能为以后的演进发展奠定基础,尤其是对于技术封锁和难度最高的国内半导体芯片行业而言,要想实现这一步更难。
3月30日,摩尔线程正式发布MUSA统一系统架构及第一代全能GPU芯片“苏提”,并基于该架构和芯片打造出了面向桌面级PC、工作站的MTT S60图形显卡,和面向数据中心级的GPU显卡MTT S200,是真正意义上的首个国产全功能GPU芯片产品,实现了国内显卡领域的首次破冰。
摩尔MTT S60采用12nm工艺制程,包含2048个MUSA核心,内置现代图形渲染引擎、智能多媒体引擎、AI计算加速引擎、以及科学计算与物理仿真引擎,单精度算力可达6TFlops,搭配8GB LPDDR4X内存。
该显卡支持常见的DirectX、Vulkan、OpenGL、OpenGL ES等图像API接口,满足主流 游戏 、原生Andriod、三维渲染等应用图像性能需求,拥有三个DP1.4接口,支持H.264、H.265(HEVC)、AV1等视频编解码,可输出4K和8K画面,可在Windows系统下畅玩《英雄联盟》等。
创始人曾任NVIDIA中国区总经理,刚离职18个月
为什么摩尔线程会“异军突起”,能够实现首个国产全功能GPU的发布落地?这很显然与该公司的创始人团队有着密切关系。据了解,摩尔线程公司于2020年10月在北京创办,幕后掌舵人是张建中,他之前担任NVIDIA全球副总裁兼中国区总经理,离职后的第二个月便创办了摩尔线程,并在18个月后也就是今天发布了首款国产全功能GPU。
NVIDIA既是全球GPU图形处理器的发明者,也是全球人工智能计算的引领者,不论是在各个行业中还是每个普通消费者眼里,想必对它们家的显卡产品都非常熟悉。所以,作为真刀实q干过GPU研发设计的张建中团队,难怪可以在如此短时间内造出实质性产品。
图形IP源自PowerVR授权,后者曾是苹果A系芯片“御用”
芯片行业中的IP,一般被称为IP核,是指芯片中具有独立功能的电路模块的成熟设计,它可以被应用在包含该电路模块的多个芯片设计项目中,从而减少自主设计工作量,缩短芯片设计周期,提高芯片设计成功率。简单来说,在现代工业化芯片设计体系中,一个复杂芯片是由芯片设计者的自主设计电路和多个外购的IP设计共同组成。
据了解,摩尔全能GPU芯片“苏提”采用的是来自英国Imagination公司的图形IP,即PowerVR渲染方式。不过,该公司在2017年便被中国投资公司以5.5亿英镑全资收购。
PowerVR图形芯片曾被英特尔采用,后来更是成为苹果A系处理器的“御用”GPU架构设计,在经过长达数年的授权合作之后,苹果便一脚踢开IMG,顺利自研GPU,时至今日A系列芯片都拥有移动端最顶级的性能功耗表现。
因此,这也是摩尔“苏提”能够快速设计完成并达到当下市面上主流兼容性能水平的背后原因之一。当然,摩尔线程也只负责GPU的设计和研发,具体产品生产还要交给芯片代工厂来解决,与华为海思相同。
国内半导体芯片行业发展程度远远落后于世界,这几年随着外界封锁和数字革命风暴的加剧,国内正在该领域加大力度努力追赶,也希望可以有更多类似于摩尔线程的公司出现,持续实现芯片行业的突破和创新。
提起 显卡 ,也就是 GPU ,大家总会不自觉地提到一个名字,那就是 英伟达 。如果说CUP行业还有英特尔和AMD等几家豪强激烈竞争,那 在GPU领域英伟达可谓是一骑绝尘 ,就连第二名AMD也被狠狠地甩在身后。
过去的很长一段时间内, 国内的GPU市场也始终被英伟达所垄断 ,国产GPU市场还是一片空白,几乎没有厂家能与之抗衡。
很多人都担心如果国内的GPU也像芯片一样被卡脖子,那我国的 科技 领域又将迎来一波新的重创,但这个时候 国内有一家“中国英伟达”崛地而起,不仅造出了GPU,而且还具备着不俗的实力,它就是景嘉微。
之所以能够成为“中国的英伟达”,主要依靠的是景嘉微所具备的 技术人才实力 。 景嘉微的创始团队中,大多都是国内半导体、GPU、计算机等领域的顶级人才, 其中不乏国家级院士、知名高校教授,以及专业的科研技术人才 。
这也正是团队具备很强的科研技术能力,使得景嘉微的产品备受国家相关部门的重视,起步阶段, 景嘉微的产品主要被应用在军事、航天、航空等专业领域 。由于这些领域是国家比较重要的核心技术领域,对于技术的稳定性和研发的独立性要求非常高,这些领域的核心技术一旦被国外卡脖子,那将给国家带来难以估量的损失。
为了承接国家相关部门的这些项目, 景嘉微从起步就十分注重对核心技术的开发 ,景嘉微的产品从设计到制造基本都是由企业自己完成的,这也就意味着景嘉微很难被国外企业卡住脖子。原本已经在军工、航天等领域风生水起的景嘉微不甘心停留在高处,企业想要突破自己, 在市场方面进行“下沉”,去开发民用GPU市场 。
事实上,景嘉微 探索 民用GPU市场是一个比较冒险的决定,因为当时的市场大环境下,不要说从未涉及过民用领域的景嘉微,就连很多兢兢业业发展很多年的GPU厂商,都很难在英伟达的手里分一杯羹,这使得景嘉微想要进入市场的难度被无限放大。
一旦失败,那景嘉微的所有投资都有可能直接打水漂,甚至有可能会导致景嘉微的发展计划被打乱。然而 景嘉微最终还是决定孤注一掷进行一场豪赌,事实证明它的决策是非常正确的。 几年后, 景嘉微推出了自己的第一款民用GPU——JM7系列 ,这一系列GPU一经问世就达到了当时国内GPU的最高水平。
虽然在性能上,比英伟达落后了整整6年,只达到了英伟达的GTX 1080版本,但是 作为一款国内独立研发制造的GPU,它已经具备了一定的实用性,让很多国内消费者看到了摆脱国外厂家卡脖子的希望 。GTX 1080虽然年事已高,技术方面已经很难跟得上如今GPU的主流市场,但是在一些基础工作的应用上,这款GPU还是能胜任绝大部分工作的。
虽然在技术方面,确实有不小的差距,但是一旦国外对中国实行技术封锁,那 至少能保证国内的GPU市场不会彻底沦陷,我们有底气去运用自己的GPU来抵抗封锁。
事实上,景嘉微对国内GPU市场所作出的贡献, 并不简单只是提供了几款GPU这么简单 ,它还有着自己更重大的意义,那就是 让国内的GPU厂商重新燃起了斗志。 科技 企业难以盈利是目前国内常见的困境,很多企业都要在国家的扶持下艰难地运营,这种情况在GPU行业更是非常普遍。
在英伟达和AMD等豪强的统治下,国内的GPU企业基本上分不到太多的订单,然而这些企业还要不停投入成本去研发,一批一批企业因为难以盈利而倒下,这让很多人对GPU行业失去了信心。
然而这个时候 景嘉微站了出来 ,这家企业不但在技术上突破了封锁,而且还实现了盈利,并且盈利还在每年不断增长, 这让很多企业又重新燃起了希望 。 既然中国有企业能够做到,那就没有什么是不可能的。
景嘉微的崛起让我们看到了中国企业在面对挫折和困难时,表现出的毅力和坚持。有了这个逆境突围的典范,未来还会有更多的企业以此为榜样不断奋进和突破,帮助国家在技术领域实现复兴和腾飞。
国产“英伟达”横空出世,实现从0到1的突破
100%自研技术,我们终于有了自己的“英伟达”
SegmentFault 思否报道丨公众号:SegmentFault
是他,还是那个男人,那个熟悉的皮夹克。
5 月 14 日 晚,黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前和大家见面了。
本届 GTC 从预热开始就不走寻常路,黄仁勋在大会前一天晒出了自己从烤箱里拿出了 全新的安培(Ampere)架构 GPU NVIDIA A100 。
令人颇感意外的是,虽然无法举办线下活动,英伟达竟然连线上直播都懒得办,直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。
英伟达的首款安培架构 GPU 可以算「史上最强」了,基于 7nm 工艺制程,拥有 540 亿晶体管,面积为826mm²,与 Volta 架构相比性能提升了 20 倍 ,既可以做训练也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍,达到19.5万亿次/秒 。
多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU,根据任务不同提供不同的计算力,实现最佳利用率和投资回报率的最大化。
NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍。
英伟达将 NVIDIA A100 的特性总结为以下 5 点:
黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃, 集 AI 训练和推理于一身,并且其性能相比于前代产品提升了高达 20 倍 。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时,降低数据中心的成本。”
NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它还可用于数据分析,科学计算和云图形,并已全面投产并交付给全球客户。
全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中,其中包括阿里云、AWS、百度云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器 ,每台 DGX A100 可以分割为多达 56 个独立运行的实例,还集合了 8 个 NVIDIA A100 GPU,每个 GPU 均支持 12 路 NVLink 互连总线。
据了解,与其他高端 CPU 服务器相比,DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。
黄仁勋说:“AI已经被应用到云计算、 汽车 、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”
如此强大的 DGX-A100 AI 售价自然也不便宜,标价 19.9 万美元,约合人民币 141 万元。
此外,黄仁勋还提到了英伟达新一代 DGXSuper POD 集群,由 140 台DGXA100系统组成,AI算力达 700 Petaflops,相当于数千台服务器的性能 。
据了解,首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室,用于新冠病毒疫情相关的研究。
除了以上两款重磅产品,黄仁勋还宣布推出了 NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。
英伟达此次还推出了众多 AI 领域相关产品,包括 以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。
1.以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡,可提供两个 25Gb/s 端口或一个 50Gb/s 端口。
2.EGX 边缘 AI 平台
EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品,可接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。
3.Spark 3.0
英伟达还宣布在 Spark 3.0 上支持 NVIDIA GPU 加速,基于 RAPIDS 的 Spark 3.0,打破了提取,转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90%。
4.NVIDIA Jarvis
黄仁勋在发布会中详细介绍了 NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥英伟达 AI 平台的强大功能,创建实时多模态对话式 AI。
5.Misty 交互 AI
现场演示中,一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。
自动驾驶方面,英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解,小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。
英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。
英伟达这场时隔 3 年的发布会可谓诚意满满,首次推出的安培架构给足了惊喜,性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。
虽然发布会并不是现场直播,但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多,赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业,强大的 AI 生态正在形成。
中国工程院院士倪光南曾表示:「芯片设计门槛极高,只有极少数企业能够承受中高端芯片研发成本,这也制约了芯片领域创新。」
英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力,又一次树立了性能标杆。
根据 Gartner 的预测数据 ,未来 5 年内全球人工智能芯片市场规模将呈飙升趋势 ,自 2018 年的 42.7 亿美元 ,升高至 343 亿美元 ,增长已超过 7 倍,可见 AI 芯片市场有较大增长空间。
尽管与西方发达国家相比,中国的 AI 芯片研发还存在一定差距,但过去两年中,中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。
但芯片开发极具复杂性,中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明,中国仍需要取得重大进展,才能在半导体领域与美国匹敌。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)