英特尔这几年估计心很累。
除了PC销量下滑、工艺进展迟滞,当英伟达股价上涨、新型AI处理器问世、AMD收购赛灵思、苹果发布新芯片……英特尔每每都要被拖出来吊打一次。
是廉颇老矣?还是大象善舞本来就不容易?
从英特尔现在的业务情况来看,传统PC业务已经从原来的八成下降到现在的五成,而数据中心则一路上扬,营收从原来的二成增长到了五成。或许老牌 科技 企业都逃不开波峰低谷的发展周期,于是转型就成为必然。
从2017年开始,英特尔就宣称自己是一家数据公司,因为“数据才是未来的石油”。2018年底,英特尔宣布最新战略目标,即以制程和封装、XPU架构、内存和存储、互连、安全、软件六大技术支柱为核心,明确了“以PC为中心”转向“以数据为中心”的转型目标。
而就在昨晚,英特尔正式发布其首款数据中心独立图形显卡——服务器GPU,以及oneAPI Gold工具包。这也意味着,英特尔六大战略中的XPU架构(XPU架构中的“X”指的是包含 CPU、GPU、专用加速以及FPGA 的混合架构)集齐最后一条“神龙”;软件方面,one API Gold继Beta版本发布一年后,也完成了阶段性的跃升。软硬件共同发力,英特尔卯足力气搅动数据中心本来就不平静的池水。
局势已经非常明朗,英特尔、英伟达、AMD都在打造自家的XPU架构,通过收购也好、自研也罢,在硬件架构和软件工具上的布局都是一副当仁不让的态势。
英特尔加速计算20年坎坷路
英特尔不是没有过独立显卡GPU的尝试,只不过是20年前。2009年末,英特尔宣布取消“Larrabee”图形芯片项目,将重注都押在多核的技术路径上。
彼时,英伟达已经推出Tesla,大举进攻。AMD也在2006年收购了ATI后正式进入显卡领域,虽然在CPU和GPU面临着英特尔和英伟达的双重夹击,却也是成就今天三足鼎立局面的关键一步。
英特尔在集成显卡这条路的经济账没毛病。将图像处理的部分整合到CPU中,这样一来核心显卡始终是和CPU一体的,必要时还是需要调用部分CPU的运算能力来提高图像处理效率。当性能需要提升时怎么办?增加核显,还可以提高处理器价格,间接增加利润。或许正因如此,英特尔没有太大动力去开发独显GPU,在宣布取消Larrabee项目时,信誓旦旦表示不会推出独立显卡GPU,至少短期内不会。
被停掉的Larrabee后来成为了至强融核(Xeon Phi)协处理器的原型,这是英特尔首款集成众核(Many Integrated Core,MIC)架构的产品,用作高性能计算的超级计算机或服务器的加速卡,顺应了高性能计算市场的异构需求。Xeon Phi也一度被用到超级计算机上,雄霸世界超算榜单,例如我国的天河一号、天河二号,直到2015年4月被美国禁止向中国超算中心出口Xeon Phi。
受市场需求颓势的主要影响,2018年开始,代号为Knight Landing的Xeon Phi 7210、7230等产品列入停产计划;去年,代号为Knight Mill的Xeon Phi处理器也启动停产计划,并宣布将在今年7月31日停止出货。
而就在英特尔在加速计算曲折前进的这些年,英伟达GPU一骑绝尘,AMD也在CPU和GPU双线开花。虽说船大不好调头,但作为巨头,必要时确实要勇于自我piapia打脸。
2017年末,原AMD RTG总裁、显卡首席架构师Raja Koduri离开AMD,加入英特尔。当时业界就推断英特尔可能要重启独显计划,直到Xeon Phi陆续停产,这一猜想在去年达到沸点。
直到今年8月的架构日上,英特尔曝光了针对数据中心的首款基于 Xe 架构的独立图形显卡,有关英特尔开发独显GPU的传言正式得到验证。
Xe GPU的出现,从多个维度补充了英特尔缺失的拼图。它正式宣告英特尔进军高端GPU领域,将触角伸向移动端、桌面端、云 游戏 、数据中心、高性能计算等多个领域。此外,它作为英特尔向量计算的代表产品,进一步补全了英特尔的XPU组合。
XPU架构成为必争之地
仅有CPU一条路确实走不通,这一点AMD的方向从一开始就是正确的,英特尔这些年也通过买买买扩充了XPU架构。
2015~2019这几年间,英特尔都有重磅收购,几乎都是围绕这个架构理念展开的。2015年收购FPGA供应商Altera,2016年收购AI芯片供应商Nervana,2017年收购了ADAS芯片供应商Mobileye和AI芯片供应商Movidius,2018年收购eASIC,2019年收购云端AI芯片供应商Habana Labs。
直到昨天正式推出针对数据中心的首款服务器GPU,至此,XPU全家桶已配齐。如果说英特尔之前搁置GPU计划是出于市场策略和技术瓶颈,那么,今天重返这一市场,难度就会低吗?英伟达的GPU性能不够好吗?AMD的性价比它不香吗?用户选择英特尔的理由是什么?
据英特尔的技术大拿表示,在过去的20年里,英特尔其实一直在提供集成图形显卡。而显然,随着工作负载和性能需求都在上升,AI和流媒体在这些工作负载中的占比也在上升。英特尔正在扩展为更为坚实的Linux堆栈,并将从数据中心一些独特的用例开始,比如安卓云 游戏 和流媒体服务。
这是非常明智的一个起步。安卓云 游戏 在全球 游戏 开发生态系统中占据74%的市场份额,增长空间非常大;而流媒体服务涉及高密度的媒体转码和编码,现在小视频、直播盛行,有着巨量的用户市场。英特尔希望通过至强可扩展处理器与全新服务器GPU的组合,加上开源和授权的软件组件,通过较低的总体拥有成本(TCO),为安卓云 游戏 以及实时顶级视频直播的高密度媒体转编码提供高密度、低时延的解决方案。
但不管怎样,英特尔这一次押注数据中心GPU,将会是更为艰难的挑战。首先庞大的研发投入仍然必不可少,更重要的是,这一次要突围的技术需要多点开花,要在AI、5G、自动驾驶等领域都要持续投入,基础研发上既要保持专注还要保证核心竞争优势,软件要更易用,生态要更强大。
互相渗透的软件生态
XPU的确很强大,但是想要把整个计算系统打通,除了硬件,软件平台也是要搭建的。因为涉及到具体的开发工作,在不同架构之间切换并不容易,尤其是想要跨厂商进行切换的时候,这也是业内普遍的痛点。
英特尔曾在2019年的SuperComputing大会上首次提出oneAPI,并表示这是为实现统一、简化的跨架构编程模型所提出的愿景,希望能够不受限于单一厂商专用的代码构建,且能实现原有代码的集成。借助oneAPI,开发者可以针对他们要解决的特定问题选择最佳的加速架构,且无需为一个架构和平台再重写软件。这不仅能够释放底层硬件的性能潜力,同时能降低软件开发和维护成本。继Beta版本发布一年后,相信这次最新发布的Gold版本在代码稳定性、成熟度以及性能表现方面值得期待。
既然支持跨架构、跨厂商的切换,那么不妨设想一下,如果英特尔、英伟达和AMD的芯片同在一个系统中,oneAPI是否可以提供支持?
对这一问题,英特尔方面给出的答案是肯定的,哪怕这个系统中没有英特尔的芯片,也是可以支持的。这意味着什么?它将成为开放的行业规范,任何人都可以运用它,它甚至可以进入英伟达、AMD的生态系统。面对竞争,英特尔向友商敞开怀抱,并且进入他们的阵营拥抱他们和他们的盟友。oneAPI就是英特尔在软件乃至生态层面最大的雄心。
英伟达的做法异曲同工。在2019年法兰克福国际超算大会上,英伟达已经宣布其CUDA编程架构开放支持Arm CPU架构,向Arm生态系统提供全堆栈的AI、HPC软件,可支持所有AI框架、600多个HPC应用程序的加速,其中包括所有NVIDIA CUDA-X AI和HPC库、GPU加速的AI框架和软件开发工具,比如支持OpenACC的PGI编译器和性能分析器。而堆栈优化完成后,NVIDIA将为所有主流CPU架构提供加速,包括x86、POWER、Arm。
AMD几年前也开始了这样的尝试,其Radeon开放运算平台ROCm,希望通过CUDA编译代码转换,进一步支持英伟达的 CUDA平行运算平台,开始了在软件平台上对英伟达的追赶。
写在最后
5G、AI都在催生计算场景的多样性和更为丰富的内涵。未来的数据是多样化的,需要通过多种硬件计算组合来应对多种数据类型,谁能挖掘出最优化的算力组合,谁就能让数据发挥出最大价值。异构计算,不仅是解决摩尔定律走入绝境的一种方法,更是未来所需。这就是为什么英特尔、英伟达、AMD纷纷在构建自己的XPU平台。
不过,当三大巨头纷纷端出自己的全家桶时,一个挑战是共通的:进步绝不仅体现在处理性能的提升上,更大的难题在于:如何牢牢抓住应用需求,用极为丰富、灵活的组合给出最优化、最适配的方案?
我们带大家粗略解读了一下这次美国芯片及技术出口管制新规的一些特别之处,并且很明确的指出了这次技术和产品的出口管制已经明显具有“芯片战争”的硝烟,从某种层面上已经将中国列为对其有明显安全威胁的国家,今天我们就来深入分析一下美国出台这部分芯片管制的背后原因以及对中国半导体及ICT产业发展的影响。首先我们详细说一下为什么这次的新规具有明显的宣战意味。我们先不提这次一次性列举的几十家企业将面临比华为更为严格的限制,先看看美国正常的出口禁令标准是什么。美国的高科技特别是电子信息技术一般有几种不同的安全级别,最高的限制肯定就是禁止出口,这里面核心都是一些军用技术,特别是一些高度机密的核心技术,比如其早期的隐形战机涂料,相控阵列雷达扫描,超高速超高性能模拟系统等,当然一些高精尖的仪器设备也属于这部分管制范围。第二类就是高级别的军用的产品和技术,这部分禁运的范畴主要是非军事友好国家,比如北约阵营之外国家以及除了日本韩国这些美国有驻军的国家之外,典型的就是澳大利亚这类算是友好的国家也在第二类禁运范畴内。第三类禁运就有意思了,基本都是美国认为的对其有明显威胁国家,基本都是跟美国无外交关系或者正在处于战事中的国家,这部分的禁运清单很长,甚至最严格的是所有包含一点点美国产品和技术的产品和系统都不能销往这些国家。我们熟知的俄罗斯,也是因为克里米亚之后才被美国开始部分限制禁运,而全面禁运则是乌克兰战争开始之后。举两个例子,华为就是被“诬陷”把含有美国产品的整机卖给伊朗而被美国制裁,而某家被收购的免税州企业因为把给海军订单的产品型号面板未加改动就换壳成民用产品以及曾将某个产品卖给巴铁,而先后两次受到美国政府勒令SVP背锅辞职加高额罚款。
那么这次新规中突出强调的高性能计算芯片和高性能计算设备,让这两个很明显绝大部分不是针对军事用途的产品出口中国受到严格管控,把中国当作威胁其国家安全的国家的意图已经是司马昭之心了,这意味着中国正常民用科技发展在美国人眼中是高度威胁其安全的存在,那么这不是宣战又是什么?毕竟在37年前合资企业这个模式的出现,就是为了绕过美国所谓的军用设备出口管制而发明的,同样是很多军用相关的高性能模拟芯片,曾经经常以科研用途的方式,藏身于某些整机产品中,远渡重洋走进某些科研院所。而这些产品和设备,都是因冠以MIL认证标准而奇货可居的。
当然,从另一个角度来说,中国的某几个领域确实已经让美国人感到了威胁,而这几个领域也许就是未来科技竞争的主要战场,因此在中国还没有完全建立强大的芯片产业之前,从前端控制中国部分产业的发展,这很明显是美国人对之前“绥靖政策”不能再拖延的“拨乱反正”。
如果非要把半导体产品跟军事联系起来,按说高性能模拟芯片首当其冲,而有趣的是,针对中国的出口限制中,在所有非MIL标准体系下的高性能模拟产品都没有享受到过如今这些高性能计算芯片的待遇。这已经很能说明美国新规的目的从来不是限制中国的军事用途或者所谓的用AI来训练军事的目的,其核心就是要严格限制中国高性能计算领域的飞速扩张。这其中,AI、云计算和超级计算机,是最受影响的几个领域。反倒是很多人提出的自动驾驶领域,笔者认为影响还不算大。
先说自动驾驶这部分,很多人可能认为因为NVIDIA在自动驾驶方面的算力优势非常明显,因此未来的A100和H100这些产品禁运将严重影响中国的自动驾驶技术的发展。笔者认为,从逻辑上这么看是没错的,但从实际技术指标上和目前国内自动驾驶的发展情况看,情况并没有想象的那么差。首先,自动驾驶目前能做到L4级已经是现有技术看到的极致了,即使按照某些最苛刻场景的自动驾驶(车载独立计算),算力也并不需要做到4800+。其次,国内虽然很多自动驾驶早期用NVIDIA的芯片做研究,但得益于互联网造车新势力的融资需求,真正应用到整车时都宣传自己设计主处理芯片。国内部分厂商面向L3级自动驾驶的自研芯片按美国这次的标准算,TOPS算力大概在1500-3000左右已经是很高的标准了,远达不到被禁止设计和生产的要求。再者,对自主设计芯片要求不高的传统车厂选择Tier1合作的自动驾驶方案,也很少会用到高算力的主处理芯片,更多会选择V2X这种对实时算力要求不高的系统性方案。至于很多人担心的未来超过4800算力的芯片设计都将缺少美国EDA的支持,这点在自动驾驶方面短期内也不太会受限制,一方面,专用芯片执行效率更高,因此基础算力不需要太高也能满足自动驾驶基本需求,至于L5的需求和所谓超高性能汽车主处理器,这部分都是用来提升融资额度的筹码,现在美国的新规反倒像是帮投资者更客观评估智能驾驶企业估值的标尺。另一方面,现在的NVIDIA A100裸芯片售价依然在5000+美元左右的高位,一张A100卡则是高达上万美元。就算自动驾驶汽车可以卖得很贵,号称一台补贴十几万的蔚来整车成本也不过5万美元,考虑到电池需要占40%成本,还用得起裸片成本5000+美元的A100么?
所以,真正美国瞄准的是中国的超级计算机和高性能服务器以及AI应用。毕竟在全球云计算领域,基本上已经是中美争霸的格局了,而面向未来的AI应用(非工业)方面,其他国家加起来积累成果可能都不及中美一个国家。在本次禁令正式发布之前就传出的GPU出口管制,就是针对高性能服务器和AI应用的,只不过,现在加上了高性能处理器和高性能计算整机。深究一些细节,就能看出这份禁令真的是有的放矢,处处卡住了关键技术指标。比如“满足输入输出(I/O)双向传输速度高于600GB/s”,直接卡住了高性能加速应用;“每次 *** 作的比特长度乘以TOPS 计算出的处理性能合计为4800 或更多算力的产品”,这几乎是超大规模AI模型训练的入门级标准。两个结合起来,基本上是2018-2019年左右最先进服务器的技术指标,而现在已经是2022年了,NVIDIA的A100是2020年的产物,而H100才是2022年新一代。与此对应,曾经认为可能不会受禁令现在的AMD的MI100现在看也很难过关(标称值1.2TB/s带宽,算力也是对标A100的存在),新推出的MI250早就被证实肯定会禁止出口到中国。在高性能服务器的加速卡方面,离开最主流的GPU加速卡,未来中国的高性能服务器未来只能依靠FPGA和其他ASIC了,很可惜的是,能媲美GPU的FPGA加速技术恰恰只掌握在已被密切关注的AMD和目前尚未被牵扯进来的Intel手上。而ASIC加速卡要达到同样的水平,恐怕只能寄希望于先进制程的发展了,哦,我们忘记了,美国人把3nm GAA的EDA在8月份就开始全球设计审核管制了。而对中国市场的半导体工艺设备和技术管控,早在几个月前就已经实施了,即使以应用材料和LAM这些设备巨头去抗议,估计也很难有明显的政策松动。
在超算方面,“FP64(双精度)理论计算能力是在100 petaFLOPS(每秒千万亿次浮点运算)或者以上,FP32(单精度)在200 petaFLOPS 或者以上浮点算力的超级计算机”,这部分基本上是超算前500的实力,进口倒是不多,但如果零件上要管控,我们的超算未来可能就会很尴尬了。
而在AI训练模型这方面,算力几乎是最迫切的需求,这也是为何NVIDIA能够短短几年内在销售额未尽前十的前提下,依然能成为半导体市值第二的公司。这也是为何一向沉稳的AMD愿意对标A100推出MI100这种型号倒退但部分性能大幅跨越的产品的初衷。按照美国这次的标准,恐怕笔者曾经认为的AI应用沧海遗珠Gaudi2也难于幸免了。换句话说,目前最主流的2021年之后推出的AI训练模型用计算芯片,基本上都很难摆脱这次新规的要求。当然我们也看到一些特别的初创公司的AI计算芯片,如果达不到A100的入门标准,那么也只能算是无奈之选,算力本来就是目前AI发展的技术瓶颈,这次管制必将大幅拖累中国AI训练及相关应用的发展速度,即使我们已经看到一些有落地盈利可能的AI应用,也可能因为技术上的滞后而错失抢占应用制高点的先机。
当然我们也看到一些国内GPU和AI芯片企业开始了国产替代之路,并且多款产品也是对标A100性能甚至还有所超越,但从实际反馈来看,也许硬件标称性能已经达到了,但结合软件算法之后的实际效果似乎差了不少。毕竟在这个几乎所有开发都是基于NVIDIA布局十多年的Tensor体系下,国产AI芯片要做到跟主流AI软件兼容,笔者感觉与其行百里者半九十,还不如推倒了体系重新来过。反正从这次美国的政策看,未来指望靠N,A,I三家产品来与美国AI水平并驾齐驱简直是No Any Impossible,还不如趁此机会好好从头开始搭建一下中国的AI技术体系,别忘了我们现在还有一个关键的竞争优势——人工标注。
当然,我们也可以基本跟未来的挖矿产业挥手告别了,这个本来就灰色的产业将因此次管制新规逐渐淡出部分国内矿机公司的未来战略规划,毕竟挖矿要先进工艺作保障,3nm GAA的EDA已经被管制了,美国政府这次这么苛刻的限制高性能计算芯片,谁都知道矿机芯片的算力池还是很可观的,那么你猜美国人会不会放你去用EDA设计GAA芯片来扩充国内AI算力?
我们分析了这么多这次新政的影响,并不等于我们要悲观的投降,反而我们可以借助一些机会重塑我们的ICT产业结构,而这是这场芯片战争中,中国与三十多年前日本最大的不同之处。下一期我们将深入探索芯片战争中的应对策略和我们独特的优势。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)