英特尔、AMD、英伟达，三大厂商同台竞技混合GPU+CPU_服务器

如果说英伟达的Grace CPU超级芯片的架构是CPU+GPU是巧合，那么英特尔和AMD推出的Falcon Shores XPU芯片、Instinct MI300芯片同样是CPU+GPU结构时，CPU+GPU一体的架构就很难称之为巧合了。

更为“碰巧”的是，以上三种芯片其都是用于数据中心的场景，这就意味着在未来两年内，AMD、英伟达和英特尔都将拥有混合CPU+GPU芯片进入数据中心市场。

可以说CPU+GPU的形式已经成为未来芯片设计的趋势。

英特尔推出XPU

英特尔宣布了一款特殊的融合型处理器“Falcon Shores”，官方称之为XPU。其核心是一个新的处理器架构，将英特尔的x86 CPU和Xe GPU硬件置入同一颗Xeon芯片中。

Falcon Shores芯片基于区块(Tile)设计，具备非常高的伸缩性、灵活性，可以更好地满足HPC、AI应用需求。

按照英特尔给出的数字，对比当今水平，Falcon Shores的能耗比提升超过5倍，x86计算密度提升超过5倍，内存容量与密度提升超过5倍。

Falcon Shores芯片将在2024年推出。

AMD推出APU

在数据中心领域，AMD同样展示其野心。

APU是AMD传统上用于集成显卡的客户端CPU的“加速处理单元”命名法。自2006年Opteron CPU的鼎盛时期以来，AMD一直梦想着使用APU，并于2010年开始推出第一款用于PC的APU。随后在索尼Play Station4和5以及微软Xbox XS中推出了定制APU系列游戏机，也推出了一些Opteron APU——2013年的X2100和2017年的X3000。

最近，AMD公布的路线图中显示，其将在2023年推出Instinct MI300芯片，这是AMD推出的第一款百亿亿次APU，AMD将其称为“世界上第一个数据中心APU”。

而这个APU是一种将CPU和GPU内核组合到一个封装中的芯片，仔细来说是将基于Zen4的Epyc CPU与使用其全新CDNA3架构的GPU相结合。

AMD表示Instinct MI300预计将比其Instinct MI250X提供超过8倍的AI训练性能提升，与支持Instinct MI200系列的CDNA2 GPU架构相比，用于Instinct MI300的CDNA3架构将为AI工作负载提供超过5倍的性能功耗比提升。

Instinct MI300将于2023年问世。

英伟达Grace超级芯片

一直专注于GPU设计的英伟达，在去年宣布进军基于Arm架构的CPU时引发了一阵轰动。在今年3月，英伟达推出解决HPC和大规模人工智能应用程序的Grace Hopper超级芯片。这款芯片将NVIDIA Hopper GPU与Grace CPU通过NVLink-C2C结合在一个集成模块中。

CPU+GPU的Grace Hopper核心数减半，LPDDR5X内存也只有512GB，但多了显卡的80GBHBM3内存，总带宽可达35TB/s，代价是功耗1000W，每个机架容纳42个节点。

英伟达同样承诺在2023年上半年推出其超级芯片。

从推出的时间节点来看，英特尔Falcon Shores芯片、AMD Instinct MI300、英伟达Grace Hopper超级芯片分别在2024年、2023年、2023年上半年推出。

CPU+GPU的形式，为什么引起了三大巨头的兴趣，纷纷将其布局于数据中心？

首先，在数字经济时代，算力正在成为一种新的生产力，广泛融合到社会生产生活的各个方面。数据中心是算力的物理承载，是数字化发展的关键基础设施。全球数据中心新增稳定，2021年全球数据中戏市场规模超过679亿美元，较2020年增长98%。因此，具有巨大市场的数据中心早已被科技巨头紧盯。

其次，数据中心会收集大量的数据，因此需要搭建于数据中心的芯片具有极大算力，将CPU与GPU组合可以提高算力。英特尔高级副总裁兼加速计算系统和图形（AXG）集团总经理Raja Koduri的演讲中提及，如果想要成功获得HPC市场，就需要芯片能够处理海量的数据集。尽管，GPU具有强大的计算能力，能够同时并行工作数百个的内核，但如今独立的GPU仍然有一大缺陷，就是大的数据集无法轻松放入独立GPU内存里，需要耗费时间等待显存数据缓慢刷新。

特别是内存问题，将CPU与GPU放入同一架构，能够消除冗余内存副本来改善问题，处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据。统一内存池还意味着不需要第二个内存芯片池，即连接到CPU的DRAM。例如，Instinct MI300将把CDNA3 GPU小芯片和Zen4 CPU小芯片组合到一个处理器封装中，这两个处理器池将共享封装HBM内存。

英伟达官方表示，使用NVLink-C2C互连，Grace CPU将数据传输到Hopper GPU的速度比传统CPU快15倍；但对于数据集规模超大的场景来说，即使有像NVLink和AMD的Infinity Fabric这样的高速接口，由于HPC级处理器 *** 作数据的速度非常快，在CPU和GPU之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离，就可以节约很多能源并提升性能。

AMD表示，与使用分立CPU和GPU的实现相比，该架构的设计将允许APU使用更低的功耗；英特尔同样表示，其Falcon Shores芯片将显着提高带宽、每瓦性能、计算密度和内存容量。

整合多个独立组件往往会带来很多长期收益，但并不只是将CPU与GPU简单整合到一颗芯片中。英特尔、英伟达及AMD的GPU+CPU均是选择了Chiplet方式。

传统上，为了开发复杂的 IC 产品，供应商设计了一种将所有功能集成在同一芯片上的芯片。在随后的每一代中，每个芯片的功能数量都急剧增加。在最新的 7nm 和 5nm 节点上，成本和复杂性飙升。

而使用Chiplet设计，将具有不同功能和工艺节点的模块化芯片或小芯片封装在同一芯片，芯片客户可以选择这些小芯片中的任何一个，并将它们组装在一个先进的封装中，从而产生一种新的、复杂的芯片设计，作为片上系统 (SoC) 的替代品。

正是由于小芯片的特性，三家巨头在自己发展多芯片互连的同时，还展开了定制服务。

英特尔在发布Falcon Shores时介绍，其架构将使用Chiplet方法，采用不同制造工艺制造的多个芯片和不同的处理器模块可以紧密地塞在一个芯片封装中。这使得英特尔可以在其可以放入其芯片的CPU、GPU、I/O、内存类型、电源管理和其他电路类型上进行更高级别的定制。

最特别的是，Falcon Shores可以按需配置不同区块模块，尤其是x86CPU核心、XeGPU核心，数量和比例都非常灵活，就看做什么用了。

目前，英特尔已开放其 x86 架构进行许可，并制定了Chiplet策略，允许客户将 Arm 和 RISC-V 内核放在一个封装中。

最近，AMD同样打开了定制的大门。AMD首席技术官Mark Papermaster在分析师日会议上表示：“我们专注于让芯片更容易且更灵活实现。”

AMD允许客户在紧凑的芯片封装中实现多个芯粒（也称为chiplet或compute tiles ）。AMD已经在使用tiles，但现在AMD允许第三方制造加速或其他芯片，以将其与x86 CPU和GPU一起包含在其2D或3D封装中。

AMD的定制芯片战略将围绕新的Infinity Architecture 40展开，它是芯片封装中芯粒的互连。专有的Infinity结构将与CXL 20互连兼容。

Infinity互连还将支持UCIe（Universal Chiplet Interconnect Express）以连接封装中的chiplet。UCIe已经得到英特尔、AMD、Arm、谷歌、Meta等公司的支持。

总体而言，AMD的服务器GPU轨迹与英特尔、英伟达非常相似。这三家公司都在向CPU+GPU组合产品方向发展，英伟达的GraceHopper(Grace+H100)、英特尔的Falcon Shores XPU（混合和匹配CPU+GPU），现在MI300在单个封装上同时使用CPU和GPU小芯片。在所有这三种情况下，这些技术旨在将最好的CPU和最好的GPU结合起来，用于不完全受两者约束的工作负载。

市场研究公司Counterpoint Research的研究分析师Akshara Bassi表示：“随着芯片面积变得越来越大以及晶圆成品率问题越来越重要，多芯片模块封装设计能够实现比单芯片设计更佳的功耗和性能表现。”

Chiplet将继续存在，但就目前而言，该领域是一个孤岛。AMD、苹果、英特尔和英伟达正在将自研的互连设计方案应用于特定的封装技术中。

2018 年，英特尔将 EMIB（嵌入式多硅片）技术升级为逻辑晶圆 3D 堆叠技术。2019 年，英特尔推出 Co-EMIB 技术，能够将两个或多个 Foveros 芯片互连。

AMD率先提出Chiplet模式，在2019年全面采用小芯片技术获得了技术优势。Lisa Su 在演讲时表达了未来的规划，“我们与台积电就他们的 3D 结构密切合作，将小芯片封装与芯片堆叠相结合，为未来的高性能计算产品创建 3D 小芯片架构。”

今年 3 月 2 日，英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立 Chiplet 标准联盟，推出了通用小芯片互连标准（UCIe），希望将行业聚合起来。

迄今为止，只有少数芯片巨头开发和制造了基于Chiplet的设计。由于先进节点开发芯片的成本不断上升，业界比以往任何时候都更需要Chiplet。在多芯片潮流下，下一代顶级芯片必然也将是多芯片设计。

7月27日，帕特·基辛格（Pat Gelsinger）宣布，英特尔今后使用全新的命名系统，不再用纳米（nm），而会用Intel 7、Intel 4、Intel 3、Intel 20A等对其芯片制程节点进行命名。

基辛格称，由于当前芯片技术节点正不断逼近1nm的极限，英特尔是基于性能、功耗、面积关键技术参数，重新设计了自家芯片制程的命名系统。英特尔首个埃米级别的Intel 20A芯片预计将于2024年推出。

“x纳米”最初指芯片晶体管的实际栅极长度，数字越小，栅极长度越短，在同样面积的芯片上能容纳更多的晶体管，性能也会随之提高。但从1997年开始，晶体管的运算速度、价格、能效比等其他非体积因素也开始成为芯片系统中有重要影响因素。因此，传统的“x纳米”命名方式与晶体管实际栅极长度不再匹配。

英特尔自2011年推出FinFET技术后，几乎完全放弃了以栅极长度来命名。业内各家的技术路径不同，也不再具有可比性。

具体而言，英特尔此前的10nm Enhanced SuperFin将改名为Intel 7；此前的7nm将改名为Intel 4；英特尔7nm之后的技术节点被命名为Intel 3；而在Intel 3之后的下一个技术节点，英特尔将其命名为Intel 20A。

Intel 7与英特尔10nm SuperFin相比，每瓦性能将提升约10%-15%。2022年推出的Alder Lake客户端产品将采用Intel 7 工艺，之后面向数据中心的 Sapphire Rapids预计将在2022年第一季度投产。此外，Ponte Vecchio GPU也将采用Intel 7 工艺，并于2022年初上市。

Intel 4完全采用 EUV 光刻技术，每瓦性能约提升 20%。Intel 4 将在2022年下半年投产，预计2023年出货，产品包括：Meteor Lake和Granite Rapids。

Intel 3将在Intel 4 基础上每瓦性能再提升约18%，在芯片面积上将有额外的改进，提高了内在驱动电流；通过减少通孔电阻，优化了互连金属堆栈。Intel 3 将于2023年下半年开始用于相关产品的生产。

Intel 20A将于2024年推出。Intel 20A当中的“A”即为“埃米”。埃米为晶体学、原子物理等常用的长度单位，是纳米（nm）的十分之一。自Intel 20A起，标志着英特尔将开启半导体的埃米时代，工程师将在原子水平上制造器件和材料。在 Intel 20A 制程工艺技术上，英特尔将会与高通进行合作。

Intel 20A将使用两大突破性技术：RibbonFET 和 PowerVia。RibbonFET 是英特尔对 Gate All Around 晶体管的实现。该技术加快了晶体管开关速度，同时实现与多鳍结构相同的驱动电流，占用空间更小。PowerVia 是英特尔独创，是业界首个背面电能传输网络，能通过消除晶圆正面供电布线需求来优化信号传输。

Intel 20A之后，更先进的 Intel 18A 也已在研发之中，将于2025年初推出，在晶体管性能上将实现又一重大飞跃。

在生产方面，英特尔正与ASML密切合作，有望率先获得业界第一台High-NA EUV光刻机，从而突破当前的EUV技术。在代工客户方面，英特尔宣布，高通将成为采用Intel 20A先进制程工艺的客户。基尔辛格在新闻发布会上表示，高通的合同将涉及一个“重要的移动平台”，但没有透露英特尔从中获得的收入和产量相关信息。

文| AI 财经社牛耕

编| 赵艳秋
上周，属于英特尔的王者时代“结束”了。
英伟达（Nvidia）市值首次超越英特尔（Intel），成为全球市值最高的芯片制造商。截止到美国时间7月10日，英伟达市值达到 257846亿美元，略高于英特尔的252050亿美元。但英伟达的市盈率约为45倍，大幅度高于英特尔的12倍，也标志着投资者对英伟达前景的乐观情绪。
不同于英特尔提供的CPU，英伟达提供的是GPU（图形处理器）。严格说，英伟达是长在英特尔生态中的，英伟达的产品需要英特尔的CPU才能工作。为什么在英特尔生态中长出的企业，市值会反超英特尔？
拖累英特尔股价的首先是英特尔最近几年在制程上的落后。芯片企业比拼的是制程，英特尔提出的摩尔定律，其实就是制程的比拼。制程越先进，芯片性能越高，功耗还越低。
在2015年发布14nm制程芯片前，英特尔的制程都领先于台积电、三星等企业。但此后，台积电、三星等为AMD代工的芯片厂开发出7nm制程，而英特尔仍停留在14nm时代，使“14nm+++”成为英特尔的一个段子。直到2020年，英特尔才规模推出10nm制程芯片。而此时，台积电和三星已经直奔5nm制程了。
在2020年3月的摩根士丹利会议上，英特尔CFO George Davis 公开承认了英特尔制造工艺落后：“英特尔目前处在10nm制程时代，直到2021年底生产出7nm节点之前，英特尔不会达到与竞争对手同等的工艺水平。”
至于落后的原因，英特尔在Architecture Day曾详细透露过：
首先英特尔在10nm制程上没有选择EUV（极紫外光刻）的技术路线，而是继续上一代的ArF DUV（深紫外光刻）。此外，英特尔在10nm制程并未按照摩尔定律把晶体管密度提高到2倍，而是更为激进地提高了27倍。不过，英特尔也表示，他们的7nm和10nm制程是并行的，并会在7nm转入EUV技术。
值得一提的是，由于台积电和三星目前提到的10nm、7nm制程，与之前制程的概念有不同，因此英特尔并不像数字代表的那样落后。按照晶体管密度，英特尔10nm制程是1008亿/平方毫米，而2019年台积电推出的7nm+、2020年三星推出的7nm制程才超过1亿/平方毫米，因此一般认为，英特尔10nm制程与台积电和三星的7nm+同代。
对于英特尔的制程问题，高盛分析师Toshiya Hari很早就表示：“我们看到英特尔在10nm工艺上遇到难题，可能会影响其市场份额。”截至2019年Q4，根据市场调研机构Mercury Research的数据，在X86架构CPU市场上，英特尔仍占有844%份额，AMD为155%，两者相差54倍，但相比一年前的7倍已缩小了很多差距。
一位接近英伟达和英特尔的人士对AI 财经社分析，实际上，英伟达的营收相比英特尔还是小很多，只有英特尔的七分之一略多一点。但是AI、自动驾驶等概念，推动他的市值高涨。而据《巴伦周刊》报道，英伟达被看好的重要原因是：分析师预计，从2020年Q2开始，英伟达的数据中心业务将超过消费显卡业务，全年预计数据中心业务销售额为65亿美元，而消费显卡业务销售额为61亿美元。此外，分析师认为，英伟达的数据中心业务会持续超过英特尔。
在刚过去的2020年Q1，英伟达的数据中心业务实现了114亿美元收入新高，同比增长80%，远高于游戏业务的27%。这一方面源自英伟达去年收购的数据中心服务商Mellanox，另一方面来自英伟达新推出的Ampere架构GPU。英伟达CEO 黄仁勋表示：“英伟达可以推动当今时代最强大的技术力量——云计算和AI。”
与英特尔在CPU的地位相似，英伟达首先命名了GPU这个品类，并占到全部消费市场份额的73%。在AI时代，英伟达推出以GPU以及CUDA平台组成的生态，将游戏时代的优势延续到企业服务，用于企业的AI训练和推理需求，并占到图像、视频、语音和搜索用例的75%。
对于英伟达在AI市场的攻城掠地，英特尔并非无动于衷。在2019年12月，英特尔CEO Bob Swan表示：他已经没有兴趣再去追求CPU方面的市场份额了。“专注90%的CPU市场份额是英特尔错失转型机会的一个原因，它使英特尔自满，并错过了重要机会。”
英特尔新的目标是，“在全硅（All-Silicon）市场占据30%市场份额”，这包括开发Nervana神经网络处理器和Xe高性能GPU，后者是英特尔即将推出的独立显卡。此外，英特尔还希望用one API架构打通CPU、GPU和FPGA等多种AI硬件架构，这些是AI时代不可或缺的芯片。
在企业服务市场，除了GPU龙头英伟达以外，英特尔旧时的盟友——云服务商亚马逊、谷歌、微软等也在争相开发自己的AI芯片，如谷歌的TPU、亚马逊的AWS Inferentia等。英特尔还能否守住自己的芯片老大地位，在AI时代充满挑战。

英特尔CEO基辛格曾经表示，希望在2025年英特尔能够重返产品领导者的地位，而就在上个月，英特尔在活动上正式透露了2025年目标计划，包括未来5代工艺制程节点线路图，通过彪悍的战略意图超越所有竞争对手，顺带还重新定义命名规则。

如同80486到奔腾，从奔腾到酷睿，每一次英特尔重大改名决策背后，几乎都会带来一段强劲的技术飞跃。这一次，就让我们抽点时间，聊聊英特尔的2025路线图应该怎么理解。

先说结果

如果你想简单了解整件事情，那么下面的表格应该可以帮助你最简单了解英特尔的时间节点。与往常一样，英特尔的技术用于生产和零售之间是有区别的。例如每个工艺节点可能存在数年，新的工艺与是否投入到实际产品中仍然要看市场运营状况，这里你可以理解为AMD再加把劲，让英特尔的牙膏挤猛一点。

回顾今年早些时候基辛格给出的IDM20战略，你可以理解在战略中一共3个要素，分别是：

可以看到第一点和第三点英特尔都在着重强调如何贯彻自己的工艺节点开发节奏，基辛格在近期的2021第三季度财报前瞻电话会议中曾表示，目前英特尔每天生产的10nm晶圆已经超过14nm，这标志着英特尔已经实现了向10nm工艺制程的转变。同时在今年6月份，英特尔还表示下一代10nm产品还需要额外的验证时间，以简化2022年在企业级产品上的部署。

（手机横屏观看更佳）

仍然需要注意，虽然英特尔一直在强调10nm工艺制程与对等产品的优越性，但台积电7nm和5nm的设计在事实上已经超过了英特尔量产芯片的晶体管密程度，并在出货量上超越了英特尔，这也是为什么基辛格全力推动英特尔内部全面改革，并获得董事会支持的动力所在。

Pat Gelsinger

因此这一次路线图的公布就变得非常重要了，这将代表着英特尔未来4年的战略节奏，或者调侃一点说是挤牙膏的进度。从整体上来看，英特尔正在积极改进新品提升进度，以及让技术之间更为模块化匹配更为成熟。

在IDM 20战略中推动整套技术发展的实 *** 人是去年被任命为英特尔技术与制造总经理安凯乐（Ann B Kelleher），这个部门在2020年7月份成立，专注纯粹的技术开发，安凯乐本人在英特尔已经担任了26年工程师，先后管理过Fab 24（爱尔兰），Fab 12（美国亚利桑那），Fab 11X（美国新墨西哥州），以及在英特尔总部担任过制造与运营部门总经理。

Ann B Kelleher

在会议上，安凯乐博士表示，已经在供应商、生态系统学习、组织架构、模块化设计策略、应急计划上做出了重大改变，同时技术团队也将以更精简的方式运行。英特尔将重返技术领先地位目标定义为“每瓦性能指标”表现，也意味着芯片的峰值性能仍然是英特尔发展战略重要计划的一部分。

Fab 11X

接下来，开始我们的长篇大论。

英特尔工艺制程新命名：重新定义有多小

英特尔重新命名工艺制程名称目的是更好的符合现在的行业命名方式，显然在营销手段上，打不过对方耍流氓，最有效的方式就是加入对方，并在其中依靠业界领导能力重塑业界规则，这一点英特尔是相当有魄力的。

其实在大众认知中，英特尔10nm技术等同于台积电7nm已经不再陌生，2D平面转向3D FinFET的时候，数字表达和物理情况之间再无直接关联，在三星带头下沦为营销工具，这样的混乱已经持续了五年之久。

现在我们先把英特尔公布的线路图放出来：

2020年，英特尔10nm SuperFin。 应用于Tiger Lake和Xe-LP独立显卡解决方案SG1和DG1，名称保持不变。

2021年下半年，Intel 7。 应用于Alder Lake和Sapphire Rapids至强可扩展处理器，以前被称为10nm Enhanced Super Fin，相当于10nm制程的晶体管优化产品，每瓦性能相对10nm SuperFin提升10%到15%。其中Alder Lake已经开始批量试产，也就是我们所期待的即将翻盘的12代酷睿。同时在GPU方面，英特尔Xe-HP也划入Intel 7的范畴中。

2022年下半年，Intel 4。 在此之前被称为Intel 7nm，应用于Meteor Lake和下下一代至强可扩展处理器，目前正在实验室测试阶段。英特尔预计每瓦性能能够比上一代提升20%。Intel 4主要会在后端制程（BEOL）中使用更多的极紫外光刻（EUV）。

2023年下半年，Intel 3。 此前称为Intel 7nm+，将增加EUV和高密度库（High Density Libraries）的使用。这里英特尔新模块化战略将会起到作用，例如Intel 3和Intel 4制程将共享一些特性。相对Intel 4，Intel 3每瓦能够提升约18%。

2024年，Intel 20A。 从这里开始就是英特尔制程的转折点，A代表埃米Ångström，10Å等于1nm，在此之前被称为Intel 5nm。由于英特尔在这个时间点将从FinFET转向RibbonFET，即环绕栅极晶体管设计（GAAFET）方向，原来的5nm称呼其实是不准确的。与此同时，英特尔还在这一代工艺上使用PowerVia技术，将供电模块与计算模块尽可能分离，确保信号不受到干扰

2025年，Intel 18A。 无论是技术沟通会议，还是ChinaJoy2021现场英特尔产品总监的分享，分享细节基本到Intel 20A就结束了，但实际上在2025年之后英特尔工艺制程还将迈入Intel 18A。这里将使用ASML最新的EUV光刻机High-NA，能够进行更精确的光刻 *** 作。英特尔表示他们已经成为ASML在High-NA方面的主要合作伙伴，现在已经开始测试第一台High-NA模型。

如果我们把上述的资料进行简略整理，能够看到一个很清晰的思路：

仍然需要注意的是，上面的时间节点只代表工艺节点可能准备就绪的时间，实际产品发布仍然会有变数。例如采用Intel 7工艺的Alder Lake是今年到明年初CES上市，而Sapphire Rapids则可能会到2022年。

为什么要给制程工艺重新命名？

这可能是大多数玩家最关心的一点。无论是英特尔还是对手三星、台积电，用更小的工艺密度名称来展现产品竞争力仍然是主流做法，如果英特尔使用类似台积电、三星奔放的工艺制程命名规则，可能实际 *** 作中市场部仍然需要表达在同等制程称呼下，英特尔的晶体管密度仍然高很多。

因此切换命名赛道可能才是一个最理智的做派，并且也能很好表达在工艺节点没有提升的情况下，实际表现仍然有明显的进步。以Intel 7为例，原来冗长的名称为10nm Enhanced Super Fin，相当于10nm Super Fin的进阶产品，听起来似乎英特尔又在挤牙膏了。

实际上并非如此，比如10nm到10nm Super Fin看似只加长了命名，实际上使用了新的SuperMIM电容器设计，并带来了1GHz以上的频率提升，因此10nm Super Fin到Intel 7之间也注定意味最终性能上的变化。从目前的初步判断来看，每一代工艺的进步，至少可以带来5%到10%的每瓦性能提升，变化很明显。

事实上这套命名思路已经被三星和台积电玩的炉火纯青，例如三星会在8LPP节点设计的基础上，不断的优化，进而衍生出6LPP、5LPE和4LPE，只有到3GAE的时候才会完成全新的技术迭代。同样，台积电10nm、7nm实际上是16nm工艺的优化设计，属于同一个工艺制程节点范围内。但如果看英特尔从Intel 7到Intel 3之间的发展，将会完成2个，以更快的速度完成工艺迭代，也就是英特尔重返巅峰的重要举措之一。

说个题外话，如果当年英特尔将14nm+改名为13nm，14nm++改名12nm，在台积电批量出货5nm产品之前，也许英特尔的处境看起来似乎也没什么太大的问题。

ASML扮演关键角色

在英特尔的报告中，我们会发现ASML无论在任何时间节点都变得非常关键。由于它是目前世界上唯一一家能够给英特尔提供生产机器的公司，英特尔也注定要在ASML上花费大量的资金，以及持续的技术投入。

在这个即将接近“上帝穹顶”的半导体工艺制程领域里，指望一家独大完全是异想天开，早在2021年，英特尔、三星、台积电都对ASML进行了投资，目的就是加速EUV开发，同时将300mm晶圆迁移到4500mm晶圆上。特别是英特尔的21亿美元投资使他们获得了ASML 10%的股份，并且英特尔也表示会持续投资直至增加到25%的占比。

有趣的是，ASML已经在2021年达到了2680亿美元，已经超过了英特尔的市值。

台积电在2020年8月份的一个报告中显示，ASML的EUV光刻机中，有50%用于前沿工艺，而直至现在英特尔还没有任何产品使用EUV制造，直至Intel 4中的后端制程（BEOL）才会加大力度。目前为止，ASML仍然有50台EUV光刻机延迟交付，并计划在2021年生产45到50台EUV光刻机，2022年产量达到50-60台，每台设备标价15亿美元，安装时间需要4到6个月。

ASML的缺货也可能给促使英特尔选择在Intel 4发力的原因，但更重要的是，ASML下一代EUV技术，即High-NA EUV将会成为英特尔的主要制造技术之一。NA与EUV光刻机的数值孔径相关，简单的说是在EUV光束击中晶圆之前，可以重新增强光束宽度，击中晶圆的光束越宽，强度就越大，刻画出的电路则越准确。

而如果依靠现在的工艺，一般会使用一维或二维光刻特征的双重图案化，亦或者四重图案化来实现类似的效果，但会严重的降低产量，而High-NA EUV则不会遇到这个问题，显然也更符合英特尔的预期。

如果一切顺利，英特尔可能会在2024年获得第一台High-NA EUV光刻机，并在随后逐步增加，数量越多，对英特尔的产量和优势也将越有利。

翻盘技术点1：RibbonFET

拥有更好的光刻机是远远不够的，芯片设计将会成为英特尔重返巅峰的另一个砝码。这里英特尔着重介绍了RibbonFET和PowerVias。

在目前的普遍认知中，常规FinFET一旦失去增长动力，整个半导体制造行业会转向GAAFET，也就是Intel 20A中提到的环绕栅极晶体管设计（GAAFET）。为了便于大家理解，英特尔将其命名为RibbonFET。

RibbonFET的特点是拥有多层灵活宽度的晶体管以驱动电流。与FinFET依赖于源极/漏极的多个量化鳍片和多个鳍片轨迹的单元高度不同，RibbonFET允许单个鳍片长度可变，并且允许针对每个独立单元进行功率、性能、面积优化，相当于每一个单元的模块都可以再定义电流，变化更为多样性。

资料来自三星

英特尔同样也是GAAFET的推动者之一，在RibbonFET的展示PPT中，可以看到同时使用了PMOS和NMOS器件，看起来像4堆栈结构。而堆栈越多，增加的工艺步骤也就会越繁琐。

不过与对手相比，英特尔的速度确实有些落后。台积电计划在2nm制程上过度到GAAFET，时间节点为2023年之后，三星则计划在3GAP制程上部署更多产品，时间节点同样为2023年。而英特尔的RibbonFET需要2024年上半年才会付诸实践，并且实际产品还需要再往后延期一段时间。

翻盘技术点2：PowerVias

PowerVias是Intel 20A另一个重要设计之一。

现代电路设计是从晶体管层M0开始，向上不断叠加大尺寸额外金属层，以解决晶体管和处理器缓存、计算单元等各个部分之间的布线问题。高性能处理器通常有10到20层金属层，最外层晶体管负责外部通讯。

而在PowerVias中，晶体管被放置于设计中间，晶体管一侧放置通讯线，允许芯片之间各个部分进行通讯，所有电源相关的设计放在另一侧，更确切的说，是晶体管背面，也就是我们常说的背面供电。

从整体来看，电源部分与通讯部分分开可以简化很多不必要的麻烦，比如电源供电导致信号干扰。另一方面按，更近的通讯距离能够降低能量损耗，运行方式更为高效。

当然，背面供电也并非十全十美，它对设计和制造都提出了更高的要求，例如在设计制造晶体管的时候，就必须更早的发现设计和制造缺陷，而不是现在可以供电与晶体管设计交替进行。同时由于供电部分的翻转意味着实际发热的时候，需要考虑热量对信号的影响等等。

不过背面供电技术在行业内其实被提出很多年，ARM和IMEC在2019年联合宣布在3nm工艺的ARM Cortex-A53实现类似的技术，特别是在现在设计下，工艺节点提升开始难以换来对等的高性能，改变设计思路无疑是合理的解决方案。

下一代封装：EMIB和Foveros

除了工艺节点，英特尔还需要推进下一代封装技术。高性能芯片需求再加上困难的工艺节点开发，都使得处理器不再是单一的硅片，而是无数更小的芯片、模块组合在一起，因此就需要更好的封装和桥接技术。英特尔EMIB和Foveros就是其中的两个。

EMIB：嵌入式多芯片互联桥接

桥接技术最早给2D平面芯片桥接设计的。通常而言，两个芯片之间的相互通讯最简单的方法是穿过基板形成数据通路。基板是由绝缘材料层组成的印刷电路，其中散布着蚀刻轨道和金属迹线。根据基板的质量、物理协议和使用标准，可以得出传输数据时达到电力、带宽损耗等等，这是最便宜的选择。

基板的进阶形式是，两个芯片通过一个中介层桥接。中介层通常是一大块硅片，面积足以让两个芯片贴合。类似于插座一般，硅片对应不同芯片会提供相应的接口，并且由于数据从硅片移动到硅片，功率损失要比基板小得多，带宽也更高，缺点是作为中介层的硅片也需要额外制造，制程通常在65nm以上，并且所涉及的芯片要足够小，否则成本降不下来。

英特尔EMIB则正好是中介层硅片以及基板的融合体。英特尔没有使用大型的中介层，而是用小硅片将其嵌入到基板中，从而变成具备插口的桥接器，这使得桥接性能不会受到硅片成本过大，以及基板效率过低的影响。

但EMIB嵌入基板其实并不容易，英特尔已经给为此花费了数年时间和资金完善这项技术，并且桥接过程中必然会存在良品率的问题，即使每个芯片桥接都能达到99%的林频率，一旦多个芯片同时桥接，则会下降到87%。

目前已经投放市场的EMIB技术有几款产品，包括Stratix FPGA 和 Agilex FPGA 系列，以及前段时间在消费端火热的Kaby Lake-G，将英特尔CPU和AMD GPU融合。接下来英特尔还计划在超级计算机图形处理器Ponte Vecchio、下一代至强Sapphire Rapids，2023年消费级处理器Meteor Lake，以及GPU相关芯片使用这项技术。

在EMIB线路图上，英特尔计划在未来几年内继续缩小EMIB的触点间距，以获得更多的连接性能。2017年发布的第一代EMIB触点间距为55微米，第二代EMIB将达到45微米，第三代EMIB则可能达到35微米。

Foveros：真正的叠叠乐

在2019年，英特尔在Lakefield上第一次使用了Foveros芯片到芯片的堆叠技术，虽然Lakefield这款低功耗移动处理器已经停售，但是芯片到芯片堆叠技术开始陆续在其他产品中推广开来。在很大程度上，芯片堆叠与EMIB部分中介层技术相似，所不同的是顶部的内插器、基片需要上一层芯片的完整有源供电。例如Lakefield处理器部分使用的是10nm制程，但诸如PCIe通道、USB接口、安全性以及IO相关则通过22FFL低功耗制程连接。

虽然这仍然属于EMIB技术的2D缩放范畴，但实际上这个 *** 作已经完成了完整的3D堆叠，并且功率损失更小，连接性更好，第一代Foveros触点间距为50微米，而第二代Foveros则可以做到36微米触点间距，连接密度增加一倍，最快会在消费级处理器Meteor Lake用上。

如果你听说过英特尔封装技术，缩写ODI，即Omni-Directional Interconnect可能听说过，这是一个允许使用悬臂硅的封装技术名称，在Foveros上变成了第三代Foveros Omni。

Foveros Omni使得原本第一代Foveros的顶部芯片尺寸限制被取消，可以允许每层多个尺寸芯片叠加。因为Foveros Omni允许铜柱通过基板一直延伸到供电部分，因此解决了大功率硅通孔（TSV）在信号中造成局部干扰的窘境。此时Foveros Omni触点间距降低到25微米。如果一切顺利，Foveros Omni将会在2023年为批量生产做好准备。

紧接着第四代Foveros Direct能够将触点间距降到的10微米，密度是Foveros Omni的六倍，并且使用全铜连接，拥有更低的功耗和电阻，推出的时间也在2023年，与Foveros Omni同步，以应对不同成本和情况的解决方案。

写在最后：性能突破终有时

英特尔给我们描绘了一个2025年的芯片制造的宏伟蓝图，而推动庞大计划背后可能会有数百家供应商与客户的谈判，而为了推进这项计划，英特尔也不惜重金聘请以往在英特尔就职的专家和研究人员，进而推进当前的研究进度。

如果想从每瓦功率上有所突破，唯有不断的将工艺、封装、设计向前推进，同时考虑到客户和市场的实际需求，做到多方面平衡相当不容易，但至少，我们看到了英特尔对重返巅峰充满决心。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10496206.html

英特尔、AMD、英伟达，三大厂商同台竞技混合GPU+CPU

发表评论

评论列表（0条）