服务器戴尔PowerEdge R900和戴尔PowerEdge R710的区别

服务器戴尔PowerEdge R900和戴尔PowerEdge R710的区别,第1张

1产品型号:PowerEdge R900(Xeon 7420/2G/146G×2)
产品类型机架式产品结构4U,1727高×447宽×701深mm 4173Kg处理器 处理器Intel Xeon MP E7420 213G处理器主频(MHz)2130MHz处理器三级缓存(M)8M L3标配CPU数目标配1个最大CPU数目最大4个主板 总线频率(MHz)1066MHz主板扩展插槽共7个,其中4个PCI-E x8,3个PCI-E x4,其中4个支持热插拨内存 内存类型ECC DDR2 667 FB-DIMM标配内存2048M最大支持内存容量128G存储 标配硬盘2×SAS 146G磁盘阵列Raid 5硬盘热插拔支持硬盘热插拔光驱DVD光驱软驱无软驱网络与插槽 网卡4个嵌入式Broadcom NetXtreme IITM 5708 Gigabit5以太网卡,具故障恢复和负载平衡功能机箱与电源 其它 支持 *** 作系统Microsoft Windows Server 2003 R2企业版(含SP2),Microsoft Windows Server 2003 R2标准版(含SP2),Red Hat Linux Enterprise v5 Advanced Platform,SUSE Linux Linux Enterprise Server 10 EM64T工作温度及湿度(℃)工作温度10℃-35℃,工作湿度20%至80%(无冷凝)存储温度及湿度(℃)储存温度-40℃-65℃,储存湿度5%至95%(无冷凝)工作高度(米)-16米至3048米售后服务3年服务其它性能显示芯片 ATI-Radeon ES1000集成显卡,含32MB SDRAM
标准接口 后部:2个通用串行总线(USB) 20端口,9针串行端口,视频接口,适合DRAC的千兆以太网接口,带有蓝/橙色LED指示灯的ID按钮,前部:2个通用串行总线(USB) 20端口,带有系统警报滚动显示屏的LCD面板,15针视频接口,系统电源开/关按钮,内部:1个通用串行总线(USB) 20端口
2个1570/1030W热插拔冗余电源 180-240 VAC/90V-180 VAC

2PowerEdge R710
多达两个双核、四核或六核的英特尔至强5500 ,5600系列处理器
这些多功能的单路和双路 64 位多核服务器和工作站的设计宗旨是提供业界领先的性能和最高能效,适用于各种不同类型的基础设施,云端、高密度和高性能计算(HPC)应用。
戴尔服务器R710芯片组
Intel 5520
*** 作系统

出厂安装的 *** 作系统:
Microsoft Windows Server 2008 SP2
Microsoft Windows Small Business Server 2008,标准版和高级版
Microsoft Windows Essential Business Server 2008,标准版和高级版
Microsoft Windows Server 2008,标准版(x64,包含Hyper-V )
Microsoft Windows Server 2008,企业版(x64,包括Hyper-V )
Microsoft Windows Server 2008 R2
Microsoft Windower 2008,数据中心版(x64,附带Hyper-V)
Microsoft Windows Servs Web Server 2008
Microsoft Windows HPC Server 2008
Novell SUSE Linux Enterprise Server 10 SP2NIX
Red Hat Enterprise Linux 52
支持的 *** 作系统
Microsoft Windows Server 2003
Novell SUSE Linux Enterprise Server 11
Red Hat Enterprise Linux 47
Red Hat Enterprise Linux 53
Sun Solaris 10
芯片组选项

Intel 5520
内存选项

高达 192GB (18 DIMM 槽):1GB/2GB/4GB/8GB/16GB DDR3 800MHz、1066MHz 或 1333MHz
硬盘

SAS,SATA,近线,SAS,SSD:
25 英寸 SAS (10K RPM):36GB、73GB、146GB、147GB、300GB
25 英寸 SAS (15K RPM) 36GB、73GB
25 英寸 SATA II (54K RPM):80GB、160GB、250GB
25 英寸 SATA II (72K RPM):80GB、120GB、1
35 英寸 SATA (72K):80GB、160GB、250GB、500GB、750GB、1TB
35 英寸 SAS (15K):73GB、146GB、300GB 60GB、250GB
25 英寸 SSD:25GB、50GB、100GB、450GB
35 英寸近线 SAS (72K):500GB、750GB、1TB最大内部存储:高达18 TB
磁盘存储

磁盘存储选件: Dell EqualLogicTM PS6000 系列PowerVaultTM RD1000 基于磁盘的备份系统
PowerVault MD3000 模块化磁盘存储阵列 PowerVault MD3000i iSCSI 磁盘存储阵列
PowerVault MD1000 SAS 外部存储系统 Dell/EMC 产品: Dell/EMC AX150 和 AX150i 网络存储阵列
Dell/EMC CX3-10c 多协议网络存储阵列 Dell/EMC CX3-20 网络存储阵列
Dell/EMC CX3-40 网络存储阵列 Dell/EMC CX3-80 网络存储阵列
驱动器托架

内部硬盘托架和热插拔底板
支持最多 6 个 35 英寸 SAS、SATA、近线 SAS 驱动器,无可选的灵活托架
支持最多 8个 25 英寸 SAS、SATA、近线 SAS 驱动器,无可选的灵活托架
最多八个25英寸驱动器,搭配可选的灵活托架
外围设备托架选件:
超薄光驱托架,可选配 DVD-ROM、Combo CD-RW/DVD-ROM 或 DVD + RW
插槽包含项

2 PCIe x8 + 2 PCIe x4 G2 或 1 x16 + 2 x4 G2
驱动器控制器

PERC 6i 和 SAS 6/iR
RAID控制器

内部:
PERC H200(6 Gb/秒)
PERC H700(6Gb /秒),配备512 MB非易失性高速缓存
PERC H700(6 Gb/秒),配备512 MB电池后备高速缓存;512 MB、1 G非易失性电池后备高速缓存
SAS 6/iR
PERC 6/i,配备256 MB电池后备高速缓存外部:
PERC H800(6Gb /秒),配备512 MB非易失性高速缓存
PERC H800(6 Gb/秒),配备512 MB电池后备高速缓存;512 MB、1 G非易失性电池后备高速缓存
PERC 6/E,配备256 MB或512 MB电池后备高速缓存外部HBA(非RAID):
6 Gbps SAS HBA
SAS 5/E HBA
LSI2032 PCIe SCSI HBA
通信选项

通信选项可选添加式网卡:双端口10 GB增强型英特尔以太网服务器适配器X520-DA2(支持FcoE以供未来使用)
Intel PRO/1000 PT 双端口服务器适配器,千兆,铜线,PCI-E x4
Intel PRO/1000 VT 四端口服务器适配器,千兆,铜线,PCI-E x8
Intel 10GBase-T 铜线单端口网卡,PCI-E x8
Intel 单端口服务器适配器,万兆,SR Optical,PCI-E x8
英特尔® 千兆位ET双端口服务器适配器
英特尔® 千兆位ET四端口服务器适配器
Broadcom 10 GbE NIC、Broadcom双端口10 GbE SFP+
Broadcom® BMC57710 10Base-T 铜线单端口网卡,PCI-E x8
Broadcom® BMC5709C IPV6 千兆铜线双端口网卡,具有 TOE 和 iSCSI 卸载,PCI-E x4
Broadcom® BMC5709C IPV6 千兆铜线双端口网卡,具有 TOE,PCI-E x4
Broadcom® NetXtreme II® 57711双端口直接连接10 GB以太网PCI-Express网卡(支持TOE和iSCSI卸载)
Brocade® CNA (1020)双端口服务器适配器可选添加式 HBA:Qlogic® QLE 2462 FC4 双端口 4 Gbps 光纤通道 HBA
Qlogic® QLE 2460 FC4 单端口 4 Gbps 光纤通道 HBA
Qlogic® QLE2562 FC8 双通道 HBA,PCI-E Gen 2 x4
Qlogic® QLE2560 FC8单通道HBA,PCI-E Gen 2 x4
Emulex® LPe-1150 FC4 单端口 4 Gbps 光纤通道 HBA,PCI-E x4
Emulex® LPe-11002 FC4 双端口 4 Gbps 光纤通道 HBA,PCI-E x4
Emulex® LPe-12000 FC8 单端口 4 Gbps 光纤通道 HBA,PCI-E Gen 2 x4
Emulex® LPe-12002 FC8 双端口 4 Gbps 光纤通道 HBA,PCI-E Gen 2 x4
Brocade® FC4和8 GB HBA
Emulex® OCE10102-IX-DCNA iSCSI HBA立式适配器
电源选项

智能节能:两个热插拔高效570瓦PSU或两个高输出热插拔870瓦PSUUPS(不间断电源):
1000瓦-5600瓦
2700瓦-5600瓦高效联机
扩展电池模块(EBM)
网络管理卡散热
持续运行:10 C至35 C,10 %至80 %的相对湿度(RH)。
10 %的年度运行时间:5 C至40 C,5 %至85 %的相对湿度(RH)。
1 %的年度运行时间:-5 C至45 C,5 %至90 %的相对湿度(RH)。
可用性

热插拔硬盘
热插拔冗余电源
热插拔冗余冷却
ECC 内存
备用行
单设备数据校正 (SDDC)
iDRAC6
免工具机箱
群集支持
显卡选项

Matrox G200
机箱包含项

R710物理尺寸:
2U
高度:864 厘米(340 英寸)
宽度:4431 厘米(1744 英寸)
厚度:6807 厘米(2680 英寸)
重量(最大配置):261 千克(5754 磅)风扇可选冗余冷却声音
23 ± 2 C 环境温度下,通常配置3 25 英寸 机箱
空闲:LwA-UL4 = 55 贝尔,LpAm5 = 39 dBA机架支持4-柱式机架:支持在符合EIA-310-E标准的19英寸方形或无螺纹的圆孔4柱式机架(包括所有Dell 42xx和24xx机架)中进行免工具安装
注:有螺纹的4柱式机架需要使用“戴尔软件和外围设备”中提供的静止ReadyRails™套件或第三方转换套件
支持机架外系统的完全扩展,以便对关键内部组件进行维护
支持可选的电缆管理臂 (CMA)
不包括 CMA 的导杆厚度:751 毫米
包括 CMA 的导杆厚度:840 毫米
方孔机架调整范围:692-756 毫米
圆孔机架调整范围:678-749 毫米4 柱式和 2 柱式机架:支持在符合EIA-310-E标准的19英寸方形或无螺纹的圆孔4柱式机架(包括所有Dell 42xx和24xx机架)中进行免工具安装
支持在符合EIA-310-E标准的19英寸螺纹孔4柱式和2柱式机架中使用工具进行安装
导杆厚度:608 毫米
方孔机架调整范围:588-828 毫米
圆孔机架调整范围:574-821 毫米
螺纹孔机架调整范围:592-846 毫米
工作环境

Acoustics:Typically configured 25” chassis in 23 ± 2 C ambient
Idle: LwA-UL = 55 bels, LpAm = 39 dBA

引言

有人说,Java确实过于臃肿,经常“小题大做”。但PHP、Nodejs扩展方面短板太明显,做小应用可以,大型应用就玩不转了。另外,JavaEE领域有太多优秀框架可以解决开发效率的问题,事实上借用Spring等框架,开发的效率丝毫不亚于PHP。

互联网时代的Java开发者,很多都不是基于Servlet和EJB来开发Web应用,而且WebLogic、WebSphere也只会存在于大公司的存量系统中,互联网公司的Java都是Tomcat的世界。

那么,微服务能完全弥补JavaEE的短板吗对于JaveEE来说,微服务扮演的,究竟是拯救者还是掘墓人的角色

在Java问世之初,包括IBM、BEA、Oracle在内的一些巨头公司,看到了Java作为一门杰出的Web编程语言可能给他们带来的巨大商机。那么如何通过一门编程语言来赚钱呢答案就是,使用这门语言构建复杂无比的服务器,让那些大公司支付一大笔费用来购买这些服务器。于是紧接着就出现了JavaEE规范、JSR规范,以及WebLogic、WebSphere等服务器中间件。

在这些服务器上面部署了大型的程序包,它们运行缓慢,消耗大量的内存。基于这些容器的开发和调试对开发人员来说简直就是噩梦,作为对他们的补偿,他们从雇主那里获得了丰厚的报酬。

因为耗资巨大,几乎找不到一家公司可以使用合理的费用长时间地支持Java。如果你要用Java构建一个网站,你必须支付一大笔费用来运行这些服务器,哪怕你只用到了Servlet容器。在很长一段时间里,Java被用在企业和公司里,因为只有这些大公司能够负担得起数百万美元的服务器费用,并为那些企业级开发人员支付高额的薪水。

RodJohnson在2003年发布了Spring框架,Spring提供了IoC和对POJO的支持,帮助开发人员逃脱EJB魔掌。开发效率因此得到大幅的提升,大量开发人员转向Spring,把EJB丢在一边。应用服务器开发商看到了这一点,他们在JavaEE5里提供了一些可以减轻开发人员负担的特性。可惜的是,Spring被一路追捧,人们几乎把它跟JavaEE容器混为一谈,它仍然运行在JavaEE的Servlet容器里,这些容器沿用的是十年前的设计,并没有考虑到多核CPU和NIO。

在这期间,PHP奋起直追。PHP使用更少的内存和资源,得到很多公司的支持。一些CMS平台,比如WordPress、Drupal等都是基于PHP构建的,这些平台吸引了大批PHP开发人员。不过,虽然PHP仍然是现今最流行的编程语言,但它也有自己的短板。它运行速度不是很快,而且难以横向扩展。

2009年,RyanDahl启动了Nodejs项目,它支持异步非阻塞的、基于事件驱动的I/O。如果服务器的线程使用得当,Nodejs可以极大地提升响应速度,单个服务器的吞吐量可以媲美一个JavaEE服务器集群。Nodejs是一个很好的作品,但它也有自己的局限性。Nodejs难以扩展,也难以与遗留的系统集成。

2014年,Undertow出现了,它是一个基于Java的非阻塞Web服务器。从#的测试结果来看,在一个价值8000美金的戴尔服务器上,它可以每秒钟处理几百万个请求,而谷歌需要使用一个集群才能处理一百万个同样的请求。它是轻量级的,它的核心部分只需要1M内存,它还包含了一个内嵌的服务器,这个服务器使用不到4M的堆内存。

基于UndertowCore构建的LightJavaFramework是一个微服务容器,它支持设计驱动及生成代码,并支持运行时安全和运行时验证。

JavaEE厂商多年前,JavaEE厂商,比如Oracle和IBM,他们花费数亿美元开发应用服务器(WebLogic和WebSphere),这些服务器以数百万的价格卖给了大型组织。但现在这些服务器卖不动了,因为JBoss迅速抢占了市场份额,Oracle对JavaEE的支持正在走下坡路:

#/story/16/07/02/1639241/oracle-may-have-stopped-funding-and-developing-java-ee

随着微服务越来越多地受到关注,这些应用服务器很难有好的销量,因为这些服务器更适合用来部署单体应用。有一个包含了数百个EJB的应用,为了在WebLogic上测试一行代码改动,居然用了45分钟时间。

JavaEE客户

从客户角度来看,耗费巨资购买这些服务器是不值得的,因为JavaEE所承诺的未必都是真的。一个为WebSphere开发的应用无法部署在WebLogic上,所以你需要花更多的钱去升级服务器,因为厂商可能不再支持旧版的服务器,而这样的更新会花费你数百万美元。

于是一些聪明人不禁要问,为什么我们要把应用部署在这些庞然大物上为什么我们要把应用打包成一个ear包或war包,而不是jar包为什么我们不能把大型的应用拆分成更小的块,让它们可以独立部署和扩展

微服务

微服务是这些问题的解药。Wikipedia把微服务定义为“一种软件架构风格,复杂的应用由一些独立的进程组成,这些进程使用与语言无关的API进行交互。这些进程服务规模很小,高度离散,聚焦在一个很小的任务上,使用模块化方式来构建系统”。

微服务架构让构建应用变得更加容易,而且应用被拆分成单独的服务,这些服务可以被任意组合。每个服务可以被独立部署,也可以被组合成一个应用。这些服务还可能会被其他应用依赖。它加快了服务的开发速度,因为只要定义好接口,服务可以并行开发。

微服务具备d性和伸缩性。微服务不只依赖单个服务器和部署,它们可以被发布到多个机器上,或者多个数据中心及其它任何可用的区域。如果一个服务失效,可以启动另外一个。因为整个应用被分解成了微服务(小型服务),可以很容易地对其中某些热门的服务进行横向扩展。

如果你曾经使用过COM、DCOM、CORBA、EJB、OSGi、J2EE、SOAP和SOA等,那么你就会知道服务和组件并不是什么新生事物。企业在使用组件方面存在的一个最大问题是他们依赖大型的硬件服务器,并在同一个服务器上运行很多应用。我们有EJB、WAR包和EAR包,以及各种组件包,因为服务器资源太过昂贵,要尽可能地物尽其用。

不过从最近几年的发展情况来看,之前的方式有些落伍。 *** 作系统服务器一直在变化,虚拟资源可以被当成组件发布,比如EC2、OpenStack、Vagrant和Docker。世界变了。微服务架构看到了这种趋势,硬件、云技术、多核CPU和虚拟技术也在发展,所以我们要改变以前的开发方式。

在开始新项目的时候不要再使用EAR包或WAR包了。现在我们可以在Docker里运行JVM,Docker只不过是一个进程,但它可以表现得像一个 *** 作系统一样。Docker运行在云端的 *** 作系统上,而云端的 *** 作系统运行在虚拟机里,虚拟机运行在Linux服务器上。这些服务器不是归谁所有,而是被很多互不相识的人共享。如果出现流量高峰怎么办很简单,使用更多的服务器实例。这就是为什么要把Java微服务运行在一个单独的进程里,而不是JavaEE容器或servlet容器。

微服务一般会提供基于>

使用微服务架构的应用程序应该是模块化、可编程和可组合的。微服务之间可以相互替换。应用程序的局部可以被重写或改进,而不会影响到整个应用。如果所有的组件都提供了可编程的API,那么微服务之间的交互就会变得更简单(永远不要相信那些不能通过curl访问的微服务)。

随着微服务逐渐流行起来,很多厂商开始尝试把他们的JavaEEWeb服务转成微服务,这样他们就可以继续卖他们的过时产品,APIGateway就是这些厂商中的一个。

JasonBloomberg是Intellyx的主席,他在一篇文章里指出了传统Web服务和微服务的区别,并对把传统Web服务转成微服务的趋势提出了质疑:

#/dangers-microservices-washing-get-value-strip-away-hype

微服务不是企业服务总线里的Web服务,也不是传统的面向服务架构,尽管它沿袭了SOA的一些基本概念。从根本上来说,微服务跟SOA是不一样的,因为整个环境已经发生了彻底的转变。

微服务架构的环境是没有边界的:端到端,基于云的应用程序运行在完全虚拟和容器化的基础设施上。容器把应用程序和服务组件化,DevOps为IT基础设施提供框架,帮助自动化开发、部署和管理环境。

虽然容器对微服务来说不是必需的,不过微服务可以很容易地运行在容器里。况且,把非微服务的代码部署在容器里不是一个明智的选择。

Docker和其他容器技术在某种程度上已经被视为微服务的最好伴侣。容器是运行微服务的最小资源子集。Docker简化了微服务的开发,让集成测试变得更简单。

容器有助于微服务开发,但不是必需的。Docker也可以被用来部署单体应用。微服务与容器可以很好地相融并进,不过微服务包含的东西远比容器多!

结论

应用开发的风格这几年一直在变化,而微服务变得越来越流行。大公司把大型应用拆分成可以单独部署的小型应用,这些小型应用被部署在云端的容器里。开源微服务框架LightJava为这些运行在容器里的微服务提供了很多特性,它支持设计驱动,开发者只需要把注意力专注在业务逻辑上,剩下的事情可以由框架和DevOps流程来处理。

那么问题来了,你怎么看

处理器英特尔 至强 处理器E5-2600 产品系列 英特尔至强 E5-2603(180GHz,10M 高速缓存, 64GT/s QPI, No Turbo), 4C, 80W 英特尔至强 E5-2609(240GHz, 10M 高速缓存, 64GT/s QPI, No Turbo), 4C, 80W 英特尔至强 E5-2620(200GHz, 15M 高速缓存, 72GT/s QPI, Turbo), 6C 95W 英特尔至强 E5-2630(230GHz, 15M 高速缓存, 72GT/s QPI, Turbo), 6C, 95W 英特尔至强 E5-2630L(200GHz, 15M 高速缓存, 72GT/s QPI, Turbo), 6C, 60W 英特尔至强 E5-2637(300GHz, 5M 高速缓存, 64GT/s QPI, No Turbo), 2C, 80W 英特尔至强 E5-2640(250GHz, 15M 高速缓存, 72GT/s QPI, Turbo), 6C, 95W 英特尔至强 E5-2643(330GHz, 10M 高速缓存, 64GT/s QPI, Turbo), 4C, 130W 英特尔至强 E5-2650(200GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 95W 英特尔至强 E5-2650L(180GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 70W 英特尔至强 E5-2660(220GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 95W 英特尔至强 E5-2665(240GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 115W 英特尔至强 E5-2667(290GHz, 15M 高速缓存, 72GT/s QPI, Turbo), 6C, 130W 英特尔至强 E5-2670(260GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 115W 英特尔至强 E5-2680(270GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 130W 英特尔至强 E5-2690(290GHz, 20M 高速缓存, 80GT/s QPI, Turbo), 8C, 135W Dell PowerEdge第12代服务器和工作负载
新技术的难度不断增加、对关键应用程序的需求不断升级以及组织需要处理的数据量剧增,这一切都将其基础架构的容量和可管理性推到了极限。
Dell PowerEdge第12代服务器通过提高效率、提升生产力以及充分发挥每分钱的最大效用,能够帮助IT组织更好地提供其业务赖以为继的服务。 借助Dell PowerEdge产品组合中提供的服务器,您能够灵活地定制基础架构以更好地支持工作负载和IT运营,从而促进企业成功。 高性能计算(HPC)和研究计算不断地需要更高的性能。 幸运的是,Dell PowerEdge第12代服务器在计算密集型环境中具有卓越的性能。
借助更多服务器上具有的更多图形处理选项、更多内置固态存储选项和超高密度设计,这些服务器能够轻松支持要求严苛的工作负载,例如计算化学、天气预报、财务建模、学术研究及其他。 借助最新一代英特尔至强处理器E5系列中的英特尔高级矢量扩展,技术计算性能最高可以翻倍。 Dell PowerEdge R620
Dell PowerEdge R620是绝佳的HPC计算节点。 这种1U机架式服务器有2个英特尔至强处理器,可以加载海量的内存。 它提供了极具吸引力的能效计算节点平台,能够可靠地支持计算群集中的横向扩展密度。 Dell PowerEdge R720
对于HPC“头节点”而言,Dell PowerEdge R720因具有最大的内存、高容量I/O及可以选择使用图形处理器而无疑成为绝佳选择。 它还可以配置精选网络适配器和10千兆位带宽,从而无需使用昂贵的PCIe插槽,即可与其数据节点之间实现非常快的通信。 对于寻求实施、更新或扩展基础架构以改进与新电子邮件迁移或更广泛的统一通信体系结构的协作的组织来说,Dell PowerEdge第12代服务器产品组合是不错的选择。
Microsoft Exchange
使用Exchange Server的组织能够选择不同外形规格的Dell PowerEdge服务器,以便有效地管理自己的电子邮件,并与其他协作工具集成。 Microsoft Exchange要实现最佳运行,本地存储需有冗余,因此Dell PowerEdge R720xd机架式服务器和Dell PowerEdge T620塔式服务器便成为理想的协作平台。
Dell PowerEdge M620因其大内存和灵活的I/O选项,包括使用戴尔的模块化精选网络适配器进行10千兆位访问,而成为刀片式环境的绝佳解决方案。借助该解决方案,您能够在各I/O端口之间动态分配带宽,以便有效地管理在使用高峰期间可能出现的峰值。
Sharepoint环境
在SharePoint环境中,重要功能有数据和Web服务,而大量内存和I/O灵活性是最重要的。 据此,Dell PowerEdge R720便因其极高的灵活性而成为绝佳选择。 而且借助其可扩展内存和PCIe插槽密度,该服务器能够处理工作组数据库和Web服务器角色。
Microsoft Lync
最后,组织使用Microsoft的Lync来集成多种支持服务(即Audio/Visual、电话、IM、电子邮件等),第12代Dell PowerEdge产品组合拥有多种服务器,能够满足统一通信环境中各种角色之需。 使用数据库,可以让您更快、更有效地处理数据,从而带领您的组织更进一步。 Dell PowerEdge服务器通过融合Microsoft SQL和Oracle,可以帮助您解决当前或以后的业务难题。
在处理器级别,最新的英特尔至强处理器E5系列中的英特尔集成I/O除了英特尔Data Direct I/O技术等其他高级处理器功能之外,还能减少多达30 %的I/O延迟,从而帮助消除瓶颈。
突破瓶颈
内存、CPU和磁盘I/O是数据库应用的主要瓶颈。 尤其是,磁盘I/O是数据库引擎执行的最昂贵的活动。 Dell PowerEdge R720作为其中一例,能够通过存储分层解决这一瓶颈。 通过使用其独立背板与传统的SAS、SATA和固态硬盘,加上戴尔超快的新型PCI Express闪存驱动器,对数据的访问速度得到极大提高。
Dell PowerEdge刀片式服务器
对于刀片式服务器环境,Dell PowerEdge M620这款刀片式服务器能够提供PCIe Express闪存驱动器、内存密度和灵活的I/O,甚至还可以通过其他外形规格提供更高的密度级别,从而轻松扩展以支持大型数据库分析。
安全性
我们所有的Dell PowerEdge服务器都具有一些安全技术,能够保护您的关键数据并确保业务的连续性,包括英特尔AES新指令技术,能够加速硬件加密,从而更加简单、快速、安全地保护数据。 要实现更高级别的自动数据保护,也可以选择自我加密硬盘。

日常办公还有音视频创作领域中,我们非常重视电脑的性能是否能够满足我们的生产力需求,以及它的后期维护是否足够简单便捷,售后是否专业无忧。这个时候,选择大品牌的专业办公主机就成为不少用户的选择。本期必买就向您推荐一款商务台式机新品,这款主机可以满足专业图形渲染和高清视频制作需求,同时在VR领域的性能表现也相当强劲。


戴尔OptiPlex7000 Tower商务台式机

日前,戴尔全新上市OptiPlex7000 Tower商务台式机。这款主机主打高端商务办公领域,作为OptiPlex7000系列里性能最强劲的一款主机,它采用了18L大体积机箱,科学规划硬件布局,满足更多升级扩展需求,同时优化了进风口设计,让系统保持超强散热状态,持续畅行专业应用。稳定出色的性能表现,保证您的创作体验。


戴尔OptiPlex7000 Tower商务台式机

戴尔OptiPlex7000Tower商务台式机率先采用125W英特尔新一代酷睿处理器,它不仅工艺升级到了10nm,还为消费级PC市场引入了DDR5内存。这款处理器最高支持16核心24线程,并且原生支持4个显示屏同时连接。混合架构能让它通过线程调度器实现多核调度。

戴尔OptiPlex7000Tower支持vPRO博锐技术,包括专为 *** 作系统虚拟化提供的芯片级安全性能、增强芯片组保护、减少 *** 作系统底层的攻击面、针对广泛的安全标准打造的保护性、Chrome芯片级保护等。其中IntelTDT威胁检测技术是为数不多基于硬件的安全保护技术,能够检测勒索软件,同时提升效率和速度,为您的内容创作保驾护航。


戴尔OptiPlex7000 Tower商务台式机

同时,戴尔OptiPlex7000 Tower商务台式机可搭载NVIDIARTX 3070高端显卡,支持VR内容创作,RTX3070采用全新NVIDIAAmpere架构,拥有5888个CUDA,更强的光线追踪与DLSS性能,搭载8GBGDDR6显存,256bit位宽,实际性能方面,RTX3070相较上一代旗舰RTX2080 Ti还提高5%左右,日常办公、修图设计、渲染视频等需求都可以轻松满足。


戴尔OptiPlex7000 Tower商务台式机

值得一提的是,戴尔OptiPlex7000 Tower商务台式机支持WiFi6高速连接,抗干扰性更强,速度也更有保证。它可选配最高128GB3600MHz DDR5规格内存、12TBM2 SSD固态硬盘,以及4TBSATAHDD硬盘,这么大规格的容量,对于体积巨大的视频作品,或者是VR程序作品来说都是非常重要的刚需,而这款商务台式机则可以带给您后顾无忧的存储体验。

有了这样强大的硬件,就需要专业的软件预置配合。这款机器出厂预装DellOptimizer戴尔智能调优软件,可以发挥出产品更强大的性能体验。DellOptimizer30是一款基于人工智能的商务优化软件,可针对您的工作方式进行学习和响应,通过后台运行自动提高应用程序性能、音频设置效果和网络连接,并且不会妨碍您的工作。


戴尔OptiPlex7000 Tower商务台式机

接口方面,这款主机配备了多个USB20和Type-C接口、线网端口、DisplayPort14x3、可选择的视频接口、FHPCIe扩展插槽x4,并且有SD卡插槽和光驱可选,做到了高度硬件模块化,无论您有任何特殊需求都可以满足了。


戴尔OptiPlex7000 Tower商务台式机

在商务办公过程中,碳排放、环保问题同样值得重视。戴尔一直重视可持续性创新,OptiPlex是戴尔首款使用回收材料的产品。戴尔OptiPlex7000Tower商务台式机含高达60%的回收塑料和闭环材料,配合长达五年的专业售后服务以及7x24小时在线技术支持,让您在使用过程中后顾无忧。


戴尔OptiPlex7000 Tower商务台式机

拥有了这样一台性能充沛的主机,没有合适的外设也不行。戴尔拥有丰富全面的自定义外设配件,这里推荐搭配戴尔P3223DE显示器,MH3021P多功能会议终端和WB7022UltraSharp网络摄像头组成完整的商务会议硬件生态使用,可以给您带来流畅的视听体验,提高线上会议效率。

与此同时,我们还可以搭配KM7321W无线键鼠套装和WL7022主动式降噪无线耳机使用,给日常创作带来完整、稳定的输入体验。这套键鼠拥有长达36个月的续航,同时支持3台设备切换连接。而无线耳机的降噪功能则能够让您拥有更专注的创作环境,可以适应所有的办公环境。

如果您是重度的高性能需求办公用户,那么这款具备出色扩展性,以及强劲性能的戴尔OptiPlex7000 Tower商务台式机就非常适合您了,感兴趣的用户不妨赶快加车购买,享受专属于您的私人订制办公体验吧!

看起来似乎有强行把芯片设计和数据中心建设拉到一起尬聊的感觉,但世间也没有那么多的一见如故,一些有意义的讨论未尝不是从尬聊开始的。

就我个人而言,今年已经多次在关于数据中心的文章和(线上)分享中提到AMD:“从1月29日开始到2月6日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近15万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入,全部由腾讯云自研的服务器星星海提供支撑。”这款服务器基于AMD去年8月发布的代号Rome(罗马)的第二代EPYC处理器,最大的特点就是核多——双路配置再算上超线程,一台采用腾讯云定制版EPYC处理器的星星海服务器可以为云服务器提供多达180个核——也就是说,这100万核服务器资源,“只”需要不到6000台该款自研服务器即可满足。

腾讯云星星海SA2服务器采用2U高度结合类似远程散热片(remote heat-sink)的设计,配合6个60mm风扇,据称可以支持2个300W级别的CPU(AMD第二代EPYC处理器公开版本最高TDP为280W)

实际上,官方名称为AMD EPYC 7002系列的第二代EPYC处理器最多能提供64个核芯、128个线程,腾讯云定制版本选择了48核芯(96线程)而已。至少在CPU的核数(core count)上,AMD给Intel(英特尔,昵称“大英”)造成了很大的压力。上个月英特尔发布了代号为Cooper Lake的第三代至强可扩展处理器(Xeon Scalable Processor,XSP),主打四路和八路市场,四路配置可提供112核芯224线程,核数上堪与双路EPYC 7002系列抗衡,为10nm制程的Ice Lake争取时间。

摩尔定律难以延续的后果就是CPU的功耗持续攀升,第一代至强可扩展处理器(公开版)里TDP最高的205W,到第三代已是寻常,250W算是克制——毕竟要考虑四路的散热需求

话说上一次AMD搞得大英如此狼狈,还要追溯到本世纪初的64位路线之争。众所周知,英特尔是x86及其生态(特别是软件生态)的缔造者,属于“亲妈”级别,AMD充其量是个“后妈”。但是,x86几十年的发展史证明,“亲妈”未必就比“后妈”更了解孩子的发展潜力。也可以前一阵大火的剧集《隐秘的角落》为例,看完就会发现,对于朱朝阳的隐藏能力,后妈的认知似乎先于亲妈。

Cooper Lake:你看我还有机会吗?

简单的说,Intel建立发展x86生态,AMD坚定捍卫x86路线——不断改造作为生态核心的x86处理器,焕颜新生

盛衰无常:架构与制程的双簧

虽然已经在过去十年中逐渐沦为爱好者口中的“牙膏厂”,但在历史上,英特尔一直不乏创新精神。对待x86的态度可以算是这种精神的一个体现,起码在进入64位时代之前,英特尔其实不太瞧得上x86,总觉得这个娃太low——可能是亲妈更了解孕育过程中的种种先天不足吧——几次三番地在重大的转折点,想要“与时俱进”,重起炉灶,带给用户“船新体验”。反而是AMD屡屡在关键时刻出来捍卫x86,通过翻新加盖来维持其生命力。

64位是关键的转折点。上世纪九十年代末,还是32位的x86刚“插足”服务器市场不久,英特尔选择与惠普(HP)联手开发基于IA-64架构的Itanium(安腾)作为接班人,与已经64位了的RISC阵营大佬们对抗。然而,AMD认为x86还可以抢救一下,决定通过64位扩展来“续命”,并在2003年4月发布首款64位x86处理器Opteron,两年后又把x86(-64)带入多核时代。

此时,英特尔已经在IA-64的路上走了十多年。时过境迁,当初设定的目标并没有实现,而x86扩展到64位和多核之后,不仅软件和应用的生态系统得到了完整的继承,性能也完全可以一战。用户用脚投票,大英不得不从。

第二代EPYC处理器发布会上,Google出示2008年7月9日上线的其第100万台服务器的照片,追诉与AMD的革命友情……还是台四路服务器

英特尔痛定思痛,决定用架构和制程构筑双保险,在2007年提出了Tick-Tock(取自于时钟的“嘀-嗒”周期)量产模式,即先通过制程升级将芯片面积缩小,是为Tick;再基于 *** 练纯熟的制程改用新的微架构,是为Tock。当时的英特尔工厂在技术和产能上都占据明显优势,只要架构上回到正轨,左右手组合拳一出,产量受限的AMD哪里支撑得住?在2008年推出Nehalem微架构之后,英特尔终于夺回主动权。

在英特尔施加的强大压力下,AMD在处理器架构上也犯了错误,2011年推出的Bulldozer(推土机)架构采用了即使现在看来也过于激进的模块化设计。随着2012年英特尔开启至强E5时代,AMD在节节失利后不得不退出服务器市场,上一个巅峰期彻底结束。

有道是:福兮祸所依,祸兮福所伏。先贤曾经曰过:纵有架构、制程双保险,奈何CEO是单点。2016年英特尔推出最后一代至强E5/E7(v4),这是英特尔首批采用14nm制程的服务器CPU,同时也宣告了Tick-Tock模式的终结,改用Process–Architecture–Optimization (制程-架构-优化)的三步走模式。

在这个可以简称为PAO的模式里,虽然仍是先制程、后架构的节奏,但新加入的优化不管是针对两者中的哪一个还是兼而有之,都起到了拉长制程换代周期的效果。第三代至强可扩展处理器已经是第四波采用14nm制程的服务器CPU,14nm后面的“+”都数不清楚有几个了——还好预计年底发布的Ice Lake将终止这个“土拨鼠之日”式的制程循环。

架构层面上,从代号Skylake的初代至强可扩展处理器开始,由环形总线改为6×6的2D-mesh,然后持续“优化”。在架构的角度,Mesh和环形总线都属于所谓传统的单片(Monolithic)式架构,优点是整体性好,涉及到I/O的性能比较有保证;缺点是对制程不太友好,随着规模的扩大,譬如核数和Cache的增加,良率上的挑战很大,高端产品的成本下不来,这对于追求高核数的云计算服务提供商显然不是个好消息。


至强E5/E7 v4的四环(2组双向环形总线)与至强SP的6×6 Mesh架构

关键时刻,又是沉寂多年的AMD挺身而出,接盘Tick-Tock,以自己的方式“维护”摩尔定律。

这个方式,就是模块化。

MCM:同构对等模块化的利与弊

先简单回顾一下AMD之前的模块化设计为什么会失败。 Bulldozer架构的模块化设计,建立在AMD对未来应用趋势的不靠谱假设上,即整数(Integer,INT)运算将占据绝对主导地位,结论是增加整数运算单元,减少浮点(Floating Point,FP)运算单元。 于是,Bulldozer架构很“鸡贼”的采用了两个(具有完整整数运算单元的)核芯共用一个浮点运算单元的模块化设计,两个模块就可以提供4个核芯(但只有2个浮点运算单元),6核以此类推。

模块化本身并没有错,Intel Nehalem的模块化设计就很成功。Bulldozer错在“拆东墙补西墙”,结果连补强都算不上

不用放马后炮,这也是一个妄揣用意(用户意志)的行为。即使是在AI大行其道的今天,第二代英特尔至强可扩展处理器已经支持INT8加速推理运算,也不能和通常意义上CPU的整数运算划等号。贸然押宝,错了当然怪不得别人。

不难看出,Bulldozer的模块化,与之前Intel Nehalem架构的模块化设计,只限于架构层面,并不是为制程考虑——CPU不论几个模块多少核,都是作为一个整体(die)来制造的,毕竟十年前制程还没到瓶颈。

然而,到了AMD以代号Naples的(第一代)EPYC处理器重返服务器市场的2017年,摩尔定律放缓的迹象已很明显。同样的14nm(可能还没有英特尔的先进)制程,AMD如何以更低的成本提供更多的核芯?

EPYC系列处理器基于AMD的Zen系列架构,从Zen、Zen+到Zen 2,以及规划中的Zen 3的发展路线,有点像前面提到的Tick-Tock:开发一个良好的基础然后交替演进,不断优化。

与先辈们不同,Zen系列的模块化明显侧重于解决制程面对的挑战,即芯片在物理上被切割为多个die(比较小的芯片更容易制造,良率有保证,有利于降低成本),通过Infinity Fabric(IF)互连为一个整体,所以每个die就是一个模块,但不一定是模块化设计的最小单位。

第一代EPYC处理器的4个die及Infinity Fabric示意

还是从初代EPYC处理器所采用的Zen架构说起。Zen确立了该系列计算单元模块化的最小单位CCX(Core Complex,核芯复合体),每个CCX包括4个Zen核芯(Core),以及8 MiB共享L3 Cache,每核芯2 MiB。

从AMD公开的示意图来看,各片(Slice)L3 Cache之间的连接方式像是full-mesh(全网状,即每两个点之间都有直接连接,无需跳转),CCX内部的跨核芯L3 Cache访问是一致的

Zen的CCD里除了2个CCX,还有2个DDR内存控制器(各对应1个内存通道),用于片上(die之间)互连的Infinity Fabric(IF On-Package,IFOP),而CPU之间互连的Infinity Fabric(IF Inter-Socket,IFIS)与对外的PCIe通道是复用的——这个知识点在后面会用到。

芯片层面的模块是CCD(Core Complex Die),包括2个CCX,共8个Core、4 MiB L2 Cache、16 MiB L3 Cache。官方名称为AMD EPYC 7001系列的第一代EPYC处理器只有CCD这一种(die层面的)模块,所以每个CCD除了2个CCX,还有大量I/O接口器件,包括DDR、Infinity Fabric/PCIe控制器,CCX占CCD面积的比例只比一半略多(56%)。

这个多芯片模块(multi-chip module,MCM)架构的代号为Zeppelin(齐柏林),四个这样的“复合型”CCD构成完整的第一代EPYC处理器,最多能提供32核芯、64 MiB L3 Cache,直接减少CCD的数量就会得到面向PC市场的高端(2×CCD)和主流产品(单CCD)。

按照AMD提供的数据:每个die的面积为213mm²(平方毫米),4个die的MCM封装总面积为852mm²,如果要用大型单一芯片来实现,面积可以缩小到777mm²,大约节省10%,但是制造和测试成本要提高约40%,完全32核的收益下降约17%、成本提高约70%。投入产出比当然非常划算,也变相的说出了大英的苦衷——可是,后者为什么还在坚持单片路线呢?

MCM这种完全对称的模块化方案,如果套用到数据中心领域,相当于一个园区,几栋建筑结构和功能完全一样,都包含了机房、变配电、柴发、冷站、办公和接待区域等。好处当然是彼此之间没有硬性依赖,每栋建筑都可以独立作为数据中心使用,照此复制就可成倍扩大规模;缺点是没有其他类型的建筑,而有些功能还是需要专门的建筑集中和分区管理的,譬如人员办公和统一接待……

如果一个数据中心园区只有黄框里这一种建筑(模块)……实际上,加上左边的66KV变电站,这里也只是整个园区的一角

况且,与绝大多数的数据中心园区不同,CPU对各模块之间的耦合度要求高得多,否则无法作为一个整体来运作,分工合作快速完成数据处理等任务。而这,正是MCM方案的局限性所在。

第一代EPYC的每个CCD都有“自己的”内存和I/O(主要是PCIe)通道,加上CCD之间的互连,每个CCD的外部I/O都很“重度”

多芯片(对称)设计、全“分布式”架构的特点是内存和I/O扩展能力与CCD数量同步,随着核芯数量的增加,内存和I/O的总“容量”(包括带宽)会增加,这当然是优点,但缺点也随之而来:

首先是局部性(locality)会降低I/O的性能,主要是跨CCD的内存访问时延(latency)明显上升。因为每组(2个)CCX都有自己的本地内存,如果要访问其他CCD上连接的内存,要额外花费很多时间,即所谓的NUMA(Non-Uniform Memory Access,非一致性内存访问)。虽然Zen的CCD上有足够多的IFOP,让4个CCD之间能组成全连接(full-mesh),无需经其他CCD跳转(类似于CCX内4个核芯之间的状况),但I/O路径毕竟变长了;如果要访问其他CPU(插槽)连接的内存,还要经过IFIS,时延会进一步上升。

CCD里的两个CCX也通过Infinity Fabric连接,同样会增加跨CCX的Cache访问时延

根据AMD提供的数据,不同内存访问的时延水平大致如下:

随着访问路径变长和复杂,时延以大约一半的比例增加,这个幅度还是很明显的。

同一个CCD里的内存访问没有明显差异,而跨CCD的内存访问,时延增加就很明显了

然后是PCIe,前面已经有图说明,Zen用于CPU之间互连的IFIS与PCIe通道是复用的,即单路(单CPU)的情况下全都用于PCIe通道,共有128个;双路(双CPU)的情况下每个CPU都要拿出一半来作为(两者之间的)IFIS,所以(对外的)PCIe通道数量仍然是128个,没有随着CPU数量的增加而增长。

简单归纳一下,Zen架构的问题是:核数越多,内存访问的一致性越差;CPU数量增加,外部I/O的扩展能力不变——NUMA引发的跨CPU访问时延增长问题还更严重。

单CPU就能提供128个PCIe 30通道原本是第一代EPYC处理器的一大优势,但双CPU仍然是这么多,就略显尴尬了

核数进一步增加的困难很大,不论是增加每个CCD的核数,还是增加CCD的数量,都要面临互连的复杂度问题,也会进一步恶化一致性。

说得更直白一些,就是Zen架构的扩展能力比较有限,难以支持更大的规模。

既然双路配置有利有弊,AMD又是时隔多年重返服务器市场,单路一度被认为是EPYC的突破口,譬如戴尔(Dell)在2018年初推出三款基于第一代EPYC的PowerEdge服务器,其中就有两款是单路。

1U的R6415和2U的R7415都是单路服务器

类似的情况在通常用不到那么多核及I/O扩展能力的PC市场体现得更为明显,在只需要一到两个CCD即可的情况下,消费者更多感受到的是低成本带来的高性价比,所以“AMD Yes!”的鼓噪主要来自个人用户,服务器市场在等待EPYC的进一步成熟。

只有1个die的Ryzen将Zen架构的缺点最小化,获得个人用户的喜爱也就不足为奇了

Chiplet:异构混合模块化的是与非

时隔两年之后,AMD推出基于Zen 2架构的第二代EPYC处理器,通过架构与制程一体优化,达到最高64核、256 MiB L3 Cache,分别是第一代EPYC的2倍和4倍,内存访问一致性和双路的扩展性也有不同程度的改善,终于获得了一众云服务提供商(CSP)的青睐。

Zen 2的整体设计思维是Zen的延续,但做了很多明显的改进,配合制程(部分)升级到7nm,突破了Zen和Zen+在规模扩展上的限制。

首先,Zen2架构延续了Zen/Zen+架构每个CCD有2个CCX、每个CCX有4个核芯共享L3 Cache的布局,但是每个核芯的L3 Cache增大一倍,来到4MiB,每个CCX有16 MiB L3 Cache,是Zen/Zen+架构的两倍。

CCD层面的主要变化是把DDR内存、对外的Infinity Fabric(IFOP/IFIS)和PCIe控制器等I/O器件剥离,以便于升级到7nm制程。AMD表示,第一代EPYC中,上述I/O器件占CCD芯片面积的比例达到44%,从制程提高到7nm中获益很小;而第二代EPYC的7nm CCD中,CPU和L3 Cache这些核心计算、存储器件的占比,高达86%,具有很好的经济性。

被从CCD中拿出来的DDR内存控制器、Infinity Fabric和PCIe控制器等I/O器件,组成了一个单独的I/O芯片,即I/O Die,简称IOD,仍然采用成熟的14nm工艺。

自左至右,分别是传统单片式、第一代EPYC的MCM、第二代EPYC的Chiplet三种架构的示意图

一个IOD居中,最多8个CCD围绕着它,AMD把这种做法称为Chiplet(小芯片)。

如果继续拿数据中心的模块化来强行类比,相当于把整个园区内的变电站、柴发、冷站、办公和接待区域都整合到一个建筑里,位于园区中央,周围是构造完全相同的一座座机房楼……你说,这样一个所有机房楼都离不开的建筑,该有多重要?

仅从布局看,和第二代EPYC处理器有点像的数据中心,但变电站在园区外,制冷也是分布式的(与4个机房模块在一起),中间的建筑并没有上面设想的那么重要

第一代EPYC处理器(Naples)与第二代EPYC处理器(Rome)的片上布局对比,后者是1个IOD + 8个CCD,共9个小芯片组成的混合多die设计

因为CCD的数量增加一倍,所以Rome的核数可以达到Naples的两倍;因为每个CCX/CPU核芯的L3 Cache容量也增加了一倍,所以Rome的L3 Cache总容量可以达到Naples的四倍。

14nm IOD + 7nm CCD的组合——因为不是全部升级到7nm,所以我更愿意称之为制程的“优化”——体现了更高的扩展性和灵活性,使第二代EPYC能够以较低的制造成本提供更丰富的产品组合,提高了市场竞争力。但是,事情并没有看起来这么简单,要了解产品的具体构成和预期的性能表现,您还需要继续往下看。

2019年8月,第二代EPYC正式发布后不久,AMD在Hot Chips大会上介绍了Zen 2产品的Chiplet设计。可能是之前有Zen+架构采用12nm制程的缘故吧,IOD的制程被写成了12nm,其他场合的官方材料都是14nm,所以我们还是以后者为准

今年2月IEEE的ISSCC(International Solid-State Circuits Conference,国际固态电路峰会)2020上,AMD更详细的介绍了Zen 2这一代产品的设计。结合前一幅图可以看到,第二代EPYC的IOD具有834亿晶体管,数量与同样采用14nm制程的英特尔Skylake/Cascade Lake相当——虽然两者的晶体管类型构成有很大差别,但可以作为一个参照,说明这个IOD自身的规模和复杂度。

从红框中的选项来看,EPYC 7302 CPU有4个CCD,每个CCX有2个核芯,可以选择各启用1个

IOD集中所有I/O器件的一个好处是,CPU能提供的内存通道数量与CCD的数量无关。E企实验室前一阵测试了基于第二代EPYC处理器的Dell PowerEdge R7525服务器,送测配置包括2个AMD EPYC 7302处理器,从PowerEdge R7525的BIOS设置中可以看到,这款16核的CPU有4个CCD(而不是8个),应该对应下图中右二的情形:

上方柱状图是AMD列出7+14nm Chiplet方案与假设的单片7nm方案相比,成本优势可以达到一半以上(64核没有假设,可能是指单片式很难制造);下方从左至右依次是8、6、4、2个CCD的布局,原则是尽可能的对称

虽然7302在EPYC 7002系列产品中定位偏低端,只有16个核芯,用4个CCX就能满足,但是它拥有128MiB的L3 Cache,这又需要8个CCX才可以。因此,7302的每个CCX只有2个核芯,享受原本属于4个核芯的16 MiB L3 Cache。

从EPYC 7002系列的配置表中可以看出,7302下面72开头的产品才是真正的低端,譬如同样是16核的7282,不仅L3 Cache容量只有7302的一半(倒是符合每核4 MiB的“标配”),而且仅支持4个内存通道,也是7302等产品的一半——说明其CCD数量是2个,就像前一幅图右下方所示的情况——4个内存通道配置的运行频率也低,只有DDR4-2667,与标准的8通道DDR4-3200相比,理论内存带宽仅为40%多

Dell PowerEdge R7525用户手册里对内存条的安装位置有很详细的说明,毕竟插满8个内存通道和只用4个内存通道,性能差距太大

IOD集中所有I/O对性能也有好处,因为内存控制器集中在一个芯片上,有助于降低内存访问的局部性(NUMA)。不过,AMD在很多场合放出的示意图很有误导性,容易让人以为,对Rome(下图右侧)来说,同一个CPU上的内存访问是不存在NUMA的。

从上面的数据来看,第二代EPYC处理器的“本地”内存访问时延有所增长,毕竟内存控制器和CCX不在一个die上了;收益是跨CPU内存访问的时延有所下降,总体更为平均

好在,稍微详细一点的架构示意图表明,一个EPYC 7002系列CPU内部的内存访问仍然会有“远近”之分:

Dell PowerEdge R7525的BIOS配置中,可以在L3 Cache的NUMA设置为Enabled之后,看到每个CPU内部其实还是可以像EPYC 7001系列一样,分成4个不同的NUMA区域

这时学术性会议的价值就体现出来。AMD在ISSCC 2020上的演讲表明,完整版的Server IOD要承载的功能太多,已经有太多的晶体管,中间都被Infinity Fabric和PCIe相关的I/O所占据,内存控制器只能两两一组布置在IOD的四角,每2个CCD就近共享2个内存控制器。由于中间已经没有走线空间,只能构成一个没有对角线连接的2D-mesh拓扑——仅从拓扑角度而论,还不如EPYC 7001系列4个CCD的full-mesh连接方式。所以,临近的访问有长短边造成的延迟差异,对角线的内存访问因为要走过一长一短两条边,没有捷径可走,自然要更慢一些。

注意放大看IOD布局示意图和右侧1~4的不同等级时延注解,可以理解为每个CPU内部仍然分为4个NUMA区域:本地、短边、长边、(拐个弯才能抵达的)对角线

Hot Chips大会上的这张示意图突出了不同功能的Infinity Fabric导致的IOD中部拥挤,和DDR内存控制器都被挤到边角上的感觉。结合前一张图,不难理解,像EPYC 7282这样只有2个CCD对角线布置的低端SKU,另一条对角线上的4个DDR内存控制器主要起增加内存容量的作用,不如只保留CCD就近的4个内存通道

总之,不管是EPYC 7001系列的MCM,还是EPYC 7002系列的Chiplet,随着芯片数量的增长,性能肯定会受到越来越明显的影响(而不是近乎线性的同步提升),只是好的架构会延缓总体性能增长的衰减速度。

这里我们可以回过头来看看同样基于Zen 2架构的第三代AMD Ryzen处理器,主流PC产品没有那么多核数要求,只用2个CCD即可满足,所以其配套的Client IOD(cIOD)正好是Server IOD的四分之一,从前面图中晶体管数量的对比(209亿 vs 834亿)也可以看出来。

代号“Matisse”的第三代Ryzen,仍然可以看到两个DDR4内存控制器偏居一隅的“遗存”,但对两个CCD已经公平了很多,基本不存在NUMA问题。也就难怪“AMD真香”党在消费类用户中比例要大得多

尽管CCD升级到了7nm,但更多核芯、更大得多的L3 Cache,意味着整体功耗的上升,譬如同样16核的7302和7282,前者Cache大一倍,频率略有提高,默认TDP就来到了155W,Dell为送测的R7525配备了180W的散热器——而EPYC 7282的TDP则“只有”120/150W。当然,CCD应用7nm的效果还是比较明显的,同样16核、L3 Cache只有7302四分之一,运行频率还低500MHz的7301,TDP也有150/170W,基本与7302相当。

为了满足云计算、高性能计算(HPC)和虚拟化等场景的用户需求,AMD又向EPYC 7002系列CPU中增加了大量多核大(L3) Cache以及核数虽少但频率很高的型号(如今年初发布的7Fx2系列),导致全系列产品中TDP在200W以上的SKU占比很高,也给服务器的散热设计带来了更高的挑战。

200W+的CPU将越来越常见

EPYC 7002系列的另一大改进是PCIe从30升级到40,单路仍然是128个通道,但双路可以支持多达160个通道(譬如Dell PowerEdge R7525的特定配置)——在主板支持的情况下。第一代EPYC处理器推出时的一个卖点是,为其设计的主板也可以支持第二代EPYC处理器。没有广而告之的是,要支持PCIe 40,主板需要重新设计。用老主板可以更快的把第二代EPYC处理器推向市场,却不能充分发挥新CPU的全部能力。

不过,PCIe 40本身就是一个很大的话题,留待以后(有机会的话)专文讨论。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12902882.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存