Intel 10nm工艺Ice Lake-SP服务器芯片飙升38核 支持PCIe 4.0了

Intel 10nm工艺Ice Lake-SP服务器芯片飙升38核 支持PCIe 4.0了,第1张

根据Intel之前的说法,2020年他们将首次推出两代服务器处理器,升级换代的间隔大幅缩短到4-5个月时间,其中一个是14nm工艺的Cooper Lake,另外一个是10nm工艺的Ice Lake-SP。

在目前的两代至强可扩展处理器中,14nm工艺的Skylake、Cascade Lake系列都是最多28核,这是14nm工艺下原生多核的极限,但是10nm工艺呢?之前传闻Ice Lake服务器版的核心数也不会增多,这样的话对阵AMD的64核处理器时候就更没什么机会了。

韩国网站日前在介绍华硕服务器产品线时意外泄露了Intel处理器平台的路线图,其中有些资料跟之前泄露的就不一样了,尤其是Ice Lake系列的具体规格。

Skylake、Cascade Lake这两代的处理器已经发布,不一一介绍了,14nm节点还有Cooper Lake,预计2020年Q2季度问世,Socket P+eack,最大功耗300W,这个指标比前面两代14nm工艺处理器大幅提升, 因为它实现了没插槽最多48核处理器,大幅超过了最多28个原生核心的限制

Cooper Lake的这个48核倒是容易解释,Intel在Cascade Lake-AP处理器就实现这个水平了,通过MCM多芯片封装,将2个Cascade Lake处理器封装为一个处理器就能让核心数大幅增长, 之前Intel做过2个24核的、2个28核的,实现了56核112线程的巨大提升

但是10nm Ice Lake处理器的核心数就不好解释了, 上面标注的是38核,TDP功耗也是270W,比普通28核的14nm处理器的205W大幅增加 ,增幅基本上跟核心数增加呈线性比例。

这个38核怎么来的呢?假如跟前面的48核Cooper Lake一样也是胶水MCM封装,技术上没问题,但实在没必要,更何况14nm都做到48核了,10nm没理由再搞个38核的,越做越少是没道理的。

排除这一点,那就意味着10nm Ice Lake处理器可以 做到原生38核或者更高了,也代表着Intel终于可以超越28核,在高性能服务器芯片市场上通过提升核心数的方式来跟AMD的EPYC霄龙处理器竞争了,虽然总核心数还是落后很多。

考虑到10nm工艺的晶体管密度达到了1亿/mm2,是14nm工艺的27倍,Intel技术上显然是可以做到更多核心的。

除此之外,10n Ice Lake处理器其他规格也先进不少,8通道DDR4-3200内存虽然没提升, 但支持二代非易失性傲腾内存,而且也加入了PCIe 40支持了

众合科技所使用的服务器芯片,并未收到美国的限制或制约。因为众合科技所使用的芯片主要是国内自主研发的处理器芯片,与美国公司没有关联。除此之外,在芯片生产上也遵循了一系列的国家安全标准,确保了数据安全和保密。所以,众合科技所使用的芯片品牌并不会受到美国制约,这也能够更好地保障我们的国家安全和企业的信息安全。

近年来,在服务器和数据中心等企业级市场,AMD凭借持续更新的“Zen”架构,其EPYC(霄龙)系列处理器的市场占有率上升势头非常迅猛。2022年11月,AMD推出全新第四代EPYC处理器。新处理器将单插槽处理器核心数量提升到最多96核,并且采用了最新的“Zen 4”架构,带来大量全新特性。接下来,本文就对第四代EPYC处理器进行详细解读。
第四代EPYC处理器:EPYC 9004系列登场
在解析AMD第四代EPYC处理器的架构之前,我们先来梳理一下它的型号定义,因为在这方面它与上代产品存在显著差异。
此前,AMD采用EPYC 7000系列作为原始命名。最后一位数代表不同代次,比如EPYC 7001、EPYC 7002和EPYC 7003就分别代表三代不同的产品,其中又包含大量细分型号。在第四代EPYC处理器上,AMD改用了EPYC 9004作为产品基础代号,这可能是考虑到本代产品具备极为显著的性能提升。同时,在大多数人的概念中,“9”相比“7”显得定位更高、性能更强。第二位数字代表处理器核心数量,其基本对应关系如下表:

第三位数字代表性能情况,数字越大则性能越强,目前由2~7的不同数字组成。如果AMD愿意,未来还可能进一步扩展到9。最后一位数字则固定为“4”,代表第四代EPYC处理器。
打开APP查看高清大图
▲AMD详细解读了EPYC 9004产品命名情况
打开APP查看高清大图
▲AMD将EPYC 9004产品分为了三类:追求核心密度的产品、追求平衡和优化的性能的产品以及追求核心性能的产品。
AMD本次发布了18款EPYC 9004系列处理器,分为3个大类,分别是追求核心密度的产品、追求平衡和优化的性能的产品以及追求核心性能的产品,具体规格见下表。
打开APP查看高清大图
打开APP查看高清大图
▲EPYC 9004、EPYC 7003、英特尔第12代酷睿、锐龙7000以及英特尔第11代酷睿处理器(从左到右)的外观对比,可以看到EPYC 9004大了不少。
计算和扩展的领先地位:EPYC 9004技术架构一览
毫不夸张地说,EPYC 9004是目前市面上最先进的企业级产品之一。它在CPU架构、Chiplet应用以及互联方式上,几乎都是当前技术条件下所能达到的极致。这一次,AMD在超大规模的企业级产品研发上进入了一个新的层次,短时间内,能超越它的只有AMD自己的下一代产品。
设计目标:拥有扩展和计算性能的优势地位

▲AMD EPYC 9004的设计理念
按照惯例,我们先来看看EPYC 9004的设计理念和实现情况。AMD EPYC 9004的设计理念就是继续保持计算性能和扩展能力的优势地位。AMD分四个方面进行了阐述:首先是拥有最先进的单核心性能和单插槽性能,这依靠最新的Zen 4架构和5nm工艺实现;其次是配备超大的内存带宽和容量,这依靠12通道的DDR5内存来实现;第三是采用全新的下一代IO接口,这包括最大160通道的PCIe 50控制器以及可以利用CXL协议扩展的内存寻址功能等;第四则是加密计算方面的新进展,主要通过CXL以及2倍的SEV-SNP功能来实现。

▲EPYC 9004和上代产品的性能比较情况
根据AMD官方数据显示,和EPYC 7003系列的顶级型号EPYC 7763相比,EPYC 9004系列中的顶级型号EPYC 9654能够在云端、HPC和企业级性能方面分别领先107%、123%以及94%。AMD宣称第四代EPYC处理器是全世界最好的数据中心处理器,拥有最快的数据中心性能、领先的能源效率、优秀的TCO表现、安全的加密计算能力以及丰富的生态系统。

▲AMD EPYC 9004的宏观布局
为了达到这些设计要求,EPYC 9004在结构上依旧采用了Chiplet设计,布局在中间的是全新设计的IO芯片,周围的CCD单元数量增加到12个。每个CCD中依旧包含了8个CPU核心和相应的缓存,以及32MB L3缓存。EPYC 9004核心数量大增的原因是CCD数量从上代产品的最多8个增加到了最多12个,这使得它最多能提供96核心192线程。
Zen 4架构:IPC提升14%
AMD在企业级产品和消费级产品上采用了同样的核心微架构:EPYC 9004和桌面锐龙7000系列都是最新的Zen 4架构。有关Zen 4架构,本刊在之前锐龙7000首发文章中曾有过介绍,本文再简单回顾一下。

▲Zen 4微架构及改进一览
AMD Zen 4架构是基于Zen 3架构改进而来,在架构设计上,AMD希望实现更高的性能、更低的延迟和更好的能效比。其中性能的提升来自频率和IPC的提升;更低的延迟主要是提升了缓存的性能并且降低了整个架构的平均延迟;能效比方面则通过新设计、新工艺以及将移动端的一些技术移植在桌面端,降低了整个CPU的动态功耗。

▲Zen 4架构相比Zen 3架构的重要提升
具体来看,Zen 4架构在分支预测、Op缓存、指令排序相关窗口、整数或浮点寄存器、每核心更深的缓冲区、后端读取和加载等方面进行了优化。特别的变化是另外加入对AVX-512指令集的支持,以及重新调整的每核心1MB、8-way L2缓存。
前端方面,分支预测部分有大幅加强。AMD使用了一个更强有力的分支预测单元,每周期可以执行2次分支预测。此外,L1分支目标缓冲区的容量提升了50%,达到15K条目,L2分支目标缓冲区则达到7K。Zen 4还拥有更大的Op缓存、更大的指令回写队列,它们在很大程度上提升了处理器的前端性能。
执行单元部分,Zen 4没有提升执行单元的数量,而是持续增大重排缓冲区。它增加了浮点/整数寄存器的体积,整数从192增加至224,浮点从160增加至192,核心缓冲区达到320条目。执行单元方面依旧是每周期10个INT和6个FP。
后端的读取和加载部分,Zen 4拥有更大的读取排序单元,更少的缓存端口冲突以及增大50%的L2 DTLB。另外依旧拥有每周期3个内存 *** 作,最多每周期3个读取和2个写入。
缓存方面,最明显的改变是每个核心的L2缓存翻倍到1MB,这样可以降低CPU核心的未命中率并提升命中率,同时也降低了从L3和内存读取数据的几率。但是由于L2缓存增大,延迟也相应提升,L2和L3的延迟分别增加到最多14个周期和最多50个周期。

▲AMD在Zen 4上设计了全新的AVX-512引擎,和英特尔的路线有巨大差异。
在指令集方面,Zen 4实现了对AVX-512指令集的支持。Zen 4采用了2个AVX 256来合并执行1个AVX-512,而英特尔采用了独立的AVX512 SIMD核心。AMD的设计可以节省晶体管资源,并且不需要降低频率来运行AVX-512。但是当同时执行AVX2和AVX-512的时候,则必须完成一个后再执行另一个。AVX-512比之前Zen架构多核心执行FP32的工作效能提升了30%。此外,Zen 4也实现了对BF16数据格式的支持,这是AI计算中新兴的一种重要数据格式。

▲在启用AVX-512后,相关性能得到了巨大提升。
根据AMD官方数据显示,在支持AVX-512后,使用2路EPYC 9654(192核心)对比2路EPYC 7763(128核心),在NLP、图像识别以及物体检测的吞吐量测试中,前者的领先幅度分别达到42倍、3倍和35倍。
AMD还给出了Zen 4相比Zen 3的性能改进情况。总的来看,Zen 4有大约14%的IPC提升。其中贡献最大的是前端的改进,其次是存储和加载部分,再次是分支预测部分,执行部分和L2部分的改进带来的性能增幅则相对较小。在发布锐龙7000系列的时候,AMD给出的IPC提升数据是13%,所以这里提到的14%应该是根据服务器所面向的不同负载重新测试而来。

▲AMD Zen 4架构在服务器端取得了14%的IPC提升
最后再来看看安全方面的内容。Zen 4架构目前支持安全加密的虚拟化,包括SEV-ES、SEV-SNP,内存加密支持AES-256-XTS,支持最多1006个加密的客户机以及多主机秘钥SMKE。此外,它还支持虚拟化X2APIC、免SMT攻击和额外的SPEC_CTL功能等。
12通道DDR5内存
每核心带宽至少比上代产品提升50%
所有EPYC 9004系列处理器都支持12通道DDR5内存,相比上代支持的8通道DDR4内存有巨大进步。从内存带宽来看,DDR5的使用在很大程度上缓解了超多核心处理器内存带宽不足的情况。

▲AMD在EPYC 9004上全面启用DDR5内存
举例来说,上代EPYC 7763拥有64个核心128线程,支持8通道DDR4内存,内存总带宽为2048GB/s,平均每核心32GB/s。新一代的EPYC 9654拥有96核心192线程,支持12通道DDR5内存,内存总带宽为4608GB/s,平均每核心48GB/s。EPYC 9654在处理器核心数量更多的情况下,每核心内存带宽提升了50%。如果是48核心或者32核心产品,每核心内存带宽的提升会更大,这为内存带宽敏感型应用带来了极为不错的性能提升空间。

▲EPYC 9004的内存架构和特性一览
从AMD官方给出的实际测试数据来看,EPYC 7003系列的实际内存带宽大约为154GB/s,EPYC 9004则高达356GB/s,是前代产品的大约23倍。延迟方面,由于EPYC 9004支持的DDR5内存容量更大、通道数量更多,因此延迟有所上升。EPYC 9004的SoC延迟大约在73ns左右,设备延迟大约是45ns左右,因此总延迟在118ns左右,而EPYC 7003的对应数据分别是70ns、35ns和105ns。从整体上来看,EPYC 9004的延迟略高,但是考虑到它拥有更大的带宽,这一点是完全可以接受的。

▲EPYC 9004的内存性能情况
在内存容量方面,所有EPYC 9004系列处理器都支持高达6TB容量。不过目前AMD只给出了1DPC(DIMM Per Channel),也就是12个内存通道、12条内存插槽下的配置情况,内存最高支持12通道的DDR5 4800。至于2DPC配置,AMD宣称会在2023年第一季度再公布详细信息。不过考虑到EPYC 9004不小的面积,12通道DDR5内存插槽所占的体积以及接近400W的CPU供电所需要的PCB面积,未来出现24通道、48插槽的2DPC主板的可能性较低,并且6TB内存对大多数应用场景来说已经足够了。

▲EPYC 9004设计有内存分区管理
最后再来看看内存分区。由于EPYC 9004系列处理器的规模很大,因此AMD也提供了NUMA域的管理和设置,使得用户可以在某些情况下对内存和核心进行调配。它包括了NPS1、NPS2和NPS4三种分区方式:NPS1就是整个处理器;NPS2是将处理器分为2个部分,每个部分有6个内存通道和6个GMI3接口;NPS4则是将处理器分为4个部分。
IO芯片和总线连接系统:采用最新的GMI3连接
AMD在EPYC 9004上继续采用大获成功的Chiplet方案。整个处理器除了CCD之外,还有一个IO芯片。EPYC 9004的CCD由台积电5nm工艺制造,这也是首个使用5nm工艺的企业级CPU产品。IO芯片也采用了台积电6nm工艺制造。

▲EPYC 9004架构简图和特性一览
因为EPYC系列一直采用Chiplet方案,因此在CCD和IO芯片之间需要通信协议予以连接。上一代EPYC处理器采用的是GMI2总线,其IO芯片内部有8个GMI2总线端口,因此总共能支持8个CCD单元连接,每个CCD拥有2个GMI总线接口,可以根据需要进行配置。

▲EPYC 9004的Chiplet连接图一览
EPYC 9004升级为GMI3总线。其中Zen 4架构的8个CCD和12个CCD采用的是每个CCD与1个GMI3总线互联,4个CCD架构中每个CCD通过2个GMI3总线进行互联,从而实现


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13493719.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-18
下一篇 2023-08-18

发表评论

登录后才能评论

评论列表(0条)

保存