服务器运算能力如何计算,或者说CPU的运算能力如何计算?

服务器运算能力如何计算,或者说CPU的运算能力如何计算?,第1张

中央处理器运算能力是用字长来区分的。
中央处理器是电脑的心脏,由运算器和控制器组成,内部结构分为控制器、运算器和存储器,这三个部分相互协调,可以进行判断、运算和并控制电脑各部分协调工作。
目前流行的中央处理器为英特尔酷睿中央处理器,分为双核、四核和八核。双核中央处理器是基于单个半导体的一个处理器上拥有两个一样功能的处理器核心。
衡量中央处理器的指标是字长,字长是电脑能直接处理的二进制数据的位数,标志着电脑处理数据的能力,字长决定了电脑运算的能力和精度,字长越长,电脑的运算能力越强,精度越高,有效数据的存储单元数越多,寻找地址的能力越强。现在个人电脑的字长分为十六位、三十二位和六十四位。
可以进行高速数据交换的存储器叫做缓存,也叫高速缓存。中央处理器一般会从缓存读取数据,中央处理器没有数据时才会向内存调用数据。缓存容量越大,中央处理器的性能越好。中央处理器的缓存分为一级缓存和二级缓存。酷睿处理器中,四个核心的内存控制器和缓存都在单一的晶元上面。

一、核心线程数
CPU的核心与线程是最容易做文章的地方,核心数体现在物理层面上。例如4核心,说明处理器里面是真实包含4颗核心,严格来说核心数量越多,不能说这个CPU越好,但能明确的是核心数越多,CPU所能处理的数据和任务越多。
而线程并不是真实存在的,而是一种概念出来的 ,线程数是会是大于或等于核心数,一个核心最少对应一个线程,通过英特尔超线程以及AMD多线程技术,可以让单颗核心模拟出双颗核心,也就是为什么我们会见到双核心四线程、六核心十二线程等这些理器,多一颗核心就多一个人,而多一个线程就多一只手。
这是我的电脑CPU状况,这台电脑也是DIY的,CPU是服务器版至强XeonX5650
总结:对于萌新们来说,核心线程数越多,这颗处理器在多任务处理能力就越强(简单理解就是多开应用程序),而如果你是个游戏入门玩家,只玩游戏不开其他程序,那么四核心四线程处理器就足够了,但如果你还有其他任务需求,或者做设计工作之类的话,就需要考虑更多核心线程的处理器了。
二、频率
除了核心线程之外,CPU还有一个重要的指标萌新们需要了解,那就是CPU的频率。频率在CPU中分为两种,一种是基本频率,还有一种是加速频率,其中加速频率英特尔叫做睿频和AMD叫做精准加速频率,其实都是一个意思,CPU的频率通常都是只一颗核心发挥的频率,并不是全核心。
基本频率是CPU在正常任务情况下的运行频率,而加速频率是当你打开一个游戏或程序后,CPU会自动将调整到合适频率。在不考虑手动超频等情况下,一般加速频率是决定一个CPU单核心性能发挥多少的关键。
在此,不建议新手自己超频。原因其一,有的CPU不能超频,有的可以超频;其二,超频有点风险,也就是超频可能让电脑启动不了,或者启动后一直停留在黑屏。这时候,只能给CMOS断电来还原了。但是,新手可能不太会 *** 作。其三,现在的CPU会根据需要自动调频的,这样既可以节约电,还可以省去超频的麻烦。比如,我的这台电脑,也是自动调频的,其最高频率可达31GHz。但是,我手动超频,BIOS上及开机提示超频到了39几GHz,其效果也不明显。也就是说啊,超频还与主板有关,不合适的主板也会限制超频效果的。
总结:一颗CPU的核心如果想要发挥更高的性能,就要拥有更高的频率。目前CPU的频率已经趋于瓶颈,主流级的产品加速频率都在4-5Ghz之间,而一些老旧的多核心至强处理器,虽然核心数很多(8颗核心常见),但频率普遍较低(3Ghz左右),所以除了稳定和多任务以及渲染强,在游戏性能上,不如4核心的八代酷睿厉害。是的啊,我这台电脑游戏性能一般,虽然通吃主流游戏,但游戏效果一般。
三、缓存
CPU的缓存是一个特别容易被忽视的地方,缓存是CPU与内存之间的缓冲地,用于解决这两者之间的速度问题,缓存目前主要值得注意的是二级缓存和三级缓存,这两项参数都会影响CPU的性能。
CPU缓存越大,能够为CPU提供的数据容量越大,这一方面对于内容创作者来说是一个值得考虑的地方,因为它们更需要大容量的缓存。

我们以Windows服务器、Linux服务器和IBM AIX服务器为例,分别说明如下:
Windows监控功能:
1、管理Windows的可用性和性能
2、监控性能统计数据,如CPU利用率、内存利用率、磁盘利用率和应答时间
3、监控Windows系统中运行的进程
4、如果Windows系统或该系统中任何指定的属性出现问题,将基于所配置的阈值生成通知和告警;基于配置自动执行 *** 作
5、能即刻呈现性能图表和报表;并基于可用性、健康状况和连接时间分别显示报表
6、提供历史的和当前的Windows性能指标,以便了解特定时间段内的性能状态
7、监控整体的CPU利用情况,并显示哪些进程正在消耗多少CPU资源
8、监控内存使用情况并检测内存消耗大户
Linux监控功能:
1、管理Linux的可用性和性能
2、监控性能统计数据,如CPU利用率、内存利用率、磁盘利用率和应答时间
3、监控Linux系统中运行的进程
4、如果Linux系统或该系统中任何指定的属性出现问题,将基于所配置的阈值生成通知和告警;并基于配置自动执行 *** 作
5、能即刻呈现性能图表和报表;并基于可用性、健康状况和连接时间分组和显示报表
6、提供历史的和当前的Linux性能指标,以便了解特定时间段内的性能状态
7、监控整体的CPU利用情况,并显示哪些进程正在占用多少CPU资源
8、监控内存使用情况并检测内存消耗大户
IBM AIX监控能力:
1、管理IBM AIX可用性和性能
2、监控诸如CPU利用率、内存利用率、磁盘利用率和应答时间等性能统计数据
3、监控模式包括Telnet和SSH
4、监控AIX系统上运行的进程
5、如果AIX系统或该系统中任何指定的属性出现问题,将基于所配置的阈值生成通知和告警;并基于配置自动执行 *** 作
6、能即刻呈现性能图表和报表;并基于可用性、健康状况和连接时间分组和显示报表
7、提供历史的和当前的AIX性能指标,以便了解特定时间段内的性能状态
8、监控整体的CPU利用情况,并显示哪些进程正在占用多少CPU资源
9、监控内存使用情况并检测内存消耗大户

CPU的频率是指其工作频率,分为主频、外频和倍频。1、主频其实就是CPU内核工作时的时钟频率。CPU的主频所表示的是CPU内数字脉冲信号振荡的速度。所以并不能直接说明主频的速度是计算机CPU的运行速度的直接反映形式,我们并不能完全用主频来概括CPU的性能。2、外频是系统总线的工作频率,即CPU的基准频率,是CPU与主板之间同步运行的速度。外频速度越高,CPU就可以同时接受更多来自外围设备的数据,从而使整个系统的速度进一步提高。3、倍频则是指CPU外频与主频相差的倍数。CPU的缓存容量与性能计算的缓存容量越大,那么他的性能就越好。计算机在进行数据处理和运算时,会把读出来的数据先存储在一旁,然后累计到一定数量以后同时传递,这样就能够把不同设备之间处理速度的差别给解决了,这个就是缓存容量。在处理数据时,数据的临时存放点,按道理,只要缓存容量越大,计算机的数据处理速度将会越大,则计算机运行速度将会越快。CPU工作电压CPU的正常工作电压的范围比较宽,在计算机发展的初期,这时候CPU的核定电压为5伏左右,后来CPU工艺、技术发展,CPU正常工作所需电压相较以前而言越来越低,最低可达11V,如此低电压下的环境,CPU也能正常运行。有些发烧友通过加强工作电压,加强CPU的运转效率,达到超频的目的,极大的提升了CPU的运行效率,但这样是一种消耗CPU使用寿命的不可取的办法。CPU的总线方式一般来说,我们把CPU内部的总线结构分为三类:单线结构,由一条总线连接内部所有的部件,结构简单,性能低下。双总线结构,连接各部件的总线有两条,被叫做双总线结构。多总线结构,连接CPU内各部件的总线有3条及以上,则构成多总线结构。CPU制造CPU的制造工艺最早是05um的,随着制造水平的提高,后来人们大多用的是025um的。如今,科学技术飞速发展,CPU的制造工艺已经开始用纳米衡量了。超标量超标量是指在一个时钟周期内CPU可以执行一条以上的指令。这在486或者以前的CPU上是很难想象的,只有Pentium级以上CPU才具有这种超标量结构;486以下的CPU属于低标量结构,即在这类CPU内执行一条指令至少需要一个或一个以上的时钟周期。

压测中三个指标CPU Utilization(CPU利用率)、Load Average(负载平均值)和Context Switch Rate(上下文切换率)

CPU Utilization  好理解,就是CPU的利用率,75%以上就比较高了(也有说法是80%或者更高)。除了这个指标外,还要结合Load Average和Context Switch Rate来看,有可能CPU高是因为后两个指标高导致的。
Load Average  ,这个很难衡量。网上搜了一圈,还没见到几个合理的解释。我100个并发用户测试数来这两个值是:77534%,6108,CPU利用率比较高,Load Average也好像有点高。后来发现了如下两片博文:  理解Load Average做好压力测试  ,“Load Average是 CPU的 Load,它所包含的信息不是 CPU的使用率状况,而是在一段时间内 CPU正在处理以及等待 CPU处理的进程数之和的统计信息,也就是 CPU使用队列的长度的统计信息。 ”,基本解释了multi-process,multi-thread程序的原理。 理解Linux处理器的负载均值(翻译)  ,简单说起来就一句话:   Load Average < CPU个数 核数 07

比如1个1核CPU,Load Average < 1 1 07;1个4核的CPU,Load Average必须 < 1 4 07 = 28。

查看cpu的信息:grep 'model name' /proc/cpuinfo
Context Switch Rate  。就是Process(Thread)的切换,如果切换过多,会让CPU忙于切换,也会导致影响吞吐量。《 高性能服务器架构  》这篇文章的第2节就是说的是这个问题的。究竟多少算合适?google了一大圈,没有一个确切的解释。Context Switch大体上由两个部分组成:中断和进程(包括线程)切换,一次中断(Interrupt)会引起一次切换,进程(线程)的创建、激活之类的也会引起一次切换。CS的值也和TPS(Transaction Per Second)相关的,假设每次调用会引起N次CS,那么就可以得出

 Context Switch Rate = Interrupt Rate + TPS N

CSR减掉IR,就是进程/线程的切换,假如主进程收到请求交给线程处理,线程处理完毕归还给主进程,这里就是2次切换。也可以用CSR、IR、TPS的值代入公式中,得出每次事物导致的切换数。因此,要降低CSR,就必须在每个TPS引起的切换上下功夫,只有N这个值降下去,CSR就能降低,理想情况下N=0,但是无论如何如果N >= 4,则要好好检查检查。另外网上说的CSR<5000,我认为标准不该如此单一。
top -d 5 (5秒刷新一个top数据)
top命令的第一行  top - 20:05:30 up 24 days, 10:46, 2 users, load average: 004, 003, 005

显示的内容依次为“系统当前时间 、系统到目前为止已运行的时间、当前登录系统的用户数量、系统负载(任务队列的平均长度)三个值分别为1分钟、5分钟、15分钟前到现在的平均值这三个一般会小于1,如果持续高于5,请仔细查看那个程序影响系统的运行
top命令的第二行  Tasks: 153 total, 1 running, 152 sleeping, 0 stopped, 0 zombie

显示的内容依次“所有启动的进程数”、“正在运行的进程数”、“挂起的进程数”、“停止的进程数”、“僵尸进程数”。
top命令的第三行  %Cpu(s): 01 us,   00 sy,  00 ni,  998 id,  00 wa,  00 hi,  00 si,  01 st

显示的内容依次为“用户空间占用CPU百分比”、“内核空间占用CPU百分比”、“用户空间内改变过优先级的进程占用CPU百分比”、“空闲CPU百分比”、“等待输入输出(IO)CPU时间百分比”、“CPU服务于硬件中断所耗费的时间总额”、“CPU服务软中断所耗费的时间总额”、“Steal Time”

(主要看id空闲CPU百分比)
top命令的第四行   KiB Mem : 16241836 total, 944800 free, 7689124 used, 7607912 buff/cache

显示内容依次为“物理内存总量”、“已使用的物理内存”、“空闲物理内存”、“内核缓存内存量”。

top命令的第五行   KiB Swap: 8257532 total, 8221180 free, 36352 used 7254304 avail Mem

显示内容依次为“交换区总量”、“已使用交互区总量”、“空闲交换区总量”、“缓冲的交换区总量”
PID:进程ID,进程的唯一标识符

USER:进程所有者的实际用户名。

PR:进程的调度优先级。这个字段的一些值是'rt'。这意味这这些进程运行在实时态。

NI:进程的nice值(优先级)。越小的值意味着越高的优先级。负值表示高优先级,正值表示低优先级

VIRT:进程使用的虚拟内存。进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

RES:驻留内存大小。驻留内存是任务使用的非交换物理内存大小。进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

SHR:SHR是进程使用的共享内存。共享内存大小,单位kb

S:这个是进程的状态。它有以下不同的值:

D - 不可中断的睡眠态。

R – 运行态

S – 睡眠态

T – 被跟踪或已停止

Z – 僵尸态

%CPU:自从上一次更新时到现在任务所使用的CPU时间百分比。

%MEM:进程使用的可用物理内存百分比。

TIME+:任务启动后到现在所使用的全部CPU时间,精确到百分之一秒。

COMMAND:运行进程所使用的命令。进程名称(命令名/命令行)
Linux性能监控:

>CPU主要的性能指标
1主频
主频也叫时钟频率,用来表示CPU内核工作的时钟频率(CPU Clock Speed),即CPU内数字脉冲信号震荡的速度。
2外频
外频是CPU与主板之间同步运行的速度。
3前端总线(FSB)频率
总线是将计算机微处理器与内存芯片以及与之通信的设备连接起来的硬件通道。前端总线将CPU连接到主内存和通向磁盘驱动器、调制解调器以及网卡这类系统部件的外设总线。人们常常以MHz表示的速度来描述总线频率。
前端总线(FSB)频率是直接影响CPU与内存直接数据交换速度。由于数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率,即数据带宽=(总线频率×数据位宽)÷8。
4、CPU的位和字长
位:在数字电路和电脑技术中采用二进制,代码只有“0”和“1”,其中无论是 “0”或是“1”在CPU中都是 一“位”。
字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。
5倍频系数
倍频系数是指CPU主频与外频之间的相对比例关系。在相同的外频下,倍频越高CPU的频率也越高。但实际上,在相同外频的前提下,高倍频的CPU本身意义并不大。这是因为CPU与系统之间数据传输速度是有限的,一味追求高倍频而得到高主频的CPU就会出现明显的“瓶颈”效应—CPU从系统中得到数据的极限速度不能够满足CPU运算的速度。一般除了工程样版的Intel的CPU都是锁了倍频的,而AMD之前都没有锁。
6缓存
缓存大小也是CPU的重要指标之一,而且缓存的结构和大小对CPU速度的影响非常大,CPU内缓存的运行频率极高,一般是和处理器同频运作,工作效率远远大于系统内存和硬盘。实际工作时,CPU往往需要重复读取同样的数据块,而缓存容量的增大,可以大幅度提升CPU内部读取数据的命中率,而不用再到内存或者硬盘上寻找,以此提高系统性能。但是由于CPU芯片面积和成本的因素来考虑,缓存都很小。
L1 Cache(一级缓存)是CPU第一层高速缓存,分为数据缓存和指令缓存。内置的L1高速缓存的容量和结构对CPU的性能影响较大,不过高速缓冲存储器均由静态RAM组成,结构较复杂,在CPU管芯面积不能太大的情况下,L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32—256KB。
L2 Cache(二级缓存)是CPU的第二层高速缓存,分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同,而外部的二级缓存则只有主频的一半。L2高速缓存容量也会影响CPU的性能,原则是越大越好,现在家庭用CPU容量最大的是512KB,而服务器和工作站上用CPU的L2高速缓存更高达256-1MB,有的高达2MB或者3MB。
L3 Cache(三级缓存),分为两种,早期的是外置,现在的都是内置的。而它的实际作用即是,L3缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加L3缓存在性能方面仍然有显著的提升。比方具有较大L3缓存的配置利用物理内存会更有效,故它比较慢的磁盘I/O子系统可以处理更多的数据请求。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。
其实最早的L3缓存被应用在AMD发布的K6-III处理器上,当时的L3缓存受限于制造工艺,并没有被集成进芯片内部,而是集成在主板上。在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。接着就是P4EE和至强MP。Intel还打算推出一款9MB L3缓存的Itanium2处理器,和以后24MB L3缓存的双核心Itanium2处理器。
但基本上L3缓存对处理器的性能提高显得不是很重要,比方配备1MB L3缓存的Xeon MP处理器却仍然不是Opteron的对手,由此可见前端总线的增加,要比缓存增加带来更有效的性能提升。
7CPU扩展指令集
CPU依靠指令来计算和控制系统,每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标,指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分,而从具体运用看,如Intel的MMX(Multi Media Extended)、SSE、 SSE2(Streaming-Single instruction multiple data-Extensions 2)、SEE3和AMD的3DNow!等都是CPU的扩展指令集,分别增强了CPU的多媒体、图形图象和Internet等的处理能力。我们通常会把CPU的扩展指令集称为"CPU的指令集"。SSE3指令集也是目前规模最小的指令集,此前MMX包含有57条命令,SSE包含有50条命令,SSE2包含有144条命令,SSE3包含有13条命令。目前SSE3也是最先进的指令集,英特尔Prescott处理器已经支持SSE3指令集,AMD会在未来双核心处理器当中加入对SSE3指令集的支持,全美达的处理器也将支持这一指令集。
8CPU内核和I/O工作电压
从586CPU开始,CPU的工作电压分为内核电压和I/O电压两种,通常CPU的核心电压小于等于I/O电压。其中内核电压的大小是根据CPU的生产工艺而定,一般制作工艺越小,内核工作电压越低;I/O电压一般都在16~5V。低电压能解决耗电过大和发热过高的问题。
9制造工艺
制造工艺的微米是指IC内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展。密度愈高的IC电路设计,意味着在同样大小面积的IC中,可以拥有密度更高、功能更复杂的电路设计。现在主要的180nm、130nm、90nm。最近官方已经表示有65nm的制造工艺了,Intel已于2008年年初发布了45nm制程的cpu。
10指令集
(1)CISC指令集
CISC指令集,也称为复杂指令集,英文名是CISC,(Complex Instruction Set Computer的缩写)。在CISC微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个 *** 作也是按顺序串行执行的。顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。其实它是英特尔生产的x86系列(也就是IA-32架构)CPU及其兼容CPU,如AMD、VIA的。即使是现在新起的X86-64(也被成AMD64)都是属于CISC的范畴。
要知道什么是指令集还要从当今的X86架构的CPU说起。X86指令集是Intel为其第一块16位CPU(i8086)专门开发的,IBM1981年推出的世界第一台PC机中的CPU—i8088(i8086简化版)使用的也是X86指令,同时电脑中为提高浮点数据处理能力而增加了X87芯片,以后就将X86指令集和X87指令集统称为X86指令集。
虽然随着CPU技术的不断发展,Intel陆续研制出更新型的i80386、i80486直到过去的PII至强、PIII至强、Pentium 3,最后到今天的Pentium 4系列、至强(不包括至强Nocona),但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,所以Intel公司所生产的所有CPU仍然继续使用X86指令集,所以它的CPU仍属于X86系列。由于Intel X86系列及其兼容CPU(如AMD Athlon MP、)都使用X86指令集,所以就形成了今天庞大的X86系列及兼容CPU阵容。x86CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。
(2)RISC指令集
RISC是英文“Reduced Instruction Set Computing ” 的缩写,中文意思是“精简指令集”。它是在CISC指令系统基础上发展起来的,有人对CISC机进行测试表明,各种指令的使用频度相当悬殊,最常使用的是一些比较简单的指令,它们仅占指令总数的20%,但在程序中出现的频度却占80%。复杂的指令系统必然增加微处理器的复杂性,使处理器的研制时间长,成本高。并且复杂指令需要复杂的 *** 作,必然会降低计算机的速度。基于上述原因,20世纪80年代RISC型CPU诞生了,相对于CISC型CPU ,RISC型CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,大大增加了并行处理能力。RISC指令集是高性能CPU的发展方向。它与传统的CISC(复杂指令集)相对。相比而言,RISC的指令格式统一,种类比较少,寻址方式也比复杂指令集少。当然处理速度就提高很多了。目前在中高档服务器中普遍采用这一指令系统的CPU,特别是高档服务器全都采用RISC指令系统的CPU。RISC指令系统更加适合高档服务器的 *** 作系统UNIX,现在Linux也属于类似UNIX的 *** 作系统。RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。
目前,在中高档服务器中采用RISC指令的CPU主要有以下几类:PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器。
(3)IA-64
EPIC(Explicitly Parallel Instruction Computers,精确并行指令计算机)是否是RISC和CISC体系的继承者的争论已经有很多,单以EPIC体系来说,它更像Intel的处理器迈向RISC体系的重要步骤。从理论上说,EPIC体系设计的CPU,在相同的主机配置下,处理Windows的应用软件比基于Unix下的应用软件要好得多。
Intel采用EPIC技术的服务器CPU是安腾Itanium(开发代号即Merced)。它是64位处理器,也是IA-64系列中的第一款。微软也已开发了代号为Win64的 *** 作系统,在软件上加以支持。在Intel采用了X86指令集之后,它又转而寻求更先进的64-bit微处理器,Intel这样做的原因是,它们想摆脱容量巨大的x86 ISA架构,从而引入精力充沛而又功能强大的指令集,于是采用EPIC指令集的IA-64架构便诞生了。IA-64 在很多方面来说,都比x86有了长足的进步。突破了传统IA32架构的许多限制,在数据的处理能力,系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高。
IA-64微处理器最大的缺陷是它们缺乏与x86的兼容,而Intel为了IA-64处理器能够更好地运行两个朝代的软件,它在IA-64处理器上(Itanium、Itanium2 ……)引入了x86-to-IA-64的解码器,这样就能够把x86指令翻译为IA-64指令。这个解码器并不是最有效率的解码器,也不是运行x86代码的最好途径(最好的途径是直接在x86处理器上运行x86代码),因此Itanium 和Itanium2在运行x86应用程序时候的性能非常糟糕。这也成为X86-64产生的根本原因。
(4)X86-64 (AMD64 / EM64T)
AMD公司设计,可以在同一时间内处理64位的整数运算,并兼容于X86-32架构。其中支持64位逻辑定址,同时提供转换为32位定址选项;但数据 *** 作指令默认为32位和8位,提供转换成64位和16位的选项;支持常规用途寄存器,如果是32位运算 *** 作,就要将结果扩展成完整的64位。这样,指令中有“直接执行”和“转换执行”的区别,其指令字段是8位或32位,可以避免字段过长。
x86-64(也叫AMD64)的产生也并非空穴来风,x86处理器的32bit寻址空间限制在4GB内存,而IA-64的处理器又不能兼容x86。AMD充分考虑顾客的需求,加强x86指令集的功能,使这套指令集可同时支持64位的运算模式,因此AMD把它们的结构称之为x86-64。在技术上AMD在x86-64架构中为了进行64位运算,AMD为其引入了新增了R8-R15通用寄存器作为原有X86处理器寄存器的扩充,但在而在32位环境下并不完全使用到这些寄存器。原来的寄存器诸如EAX、EBX也由32位扩张至64位。在SSE单元中新加入了8个新寄存器以提供对SSE2的支持。寄存器数量的增加将带来性能的提升。与此同时,为了同时支持32和64位代码及寄存器,x86-64架构允许处理器工作在以下两种模式:Long Mode(长模式)和Legacy Mode(遗传模式),Long模式又分为两种子模式(64bit模式和Compatibility mode兼容模式)。该标准已经被引进在AMD服务器处理器中的Opteron处理器。
而今年也推出了支持64位的EM64T技术,再还没被正式命为EM64T之前是IA32E,这是英特尔64位扩展技术的名字,用来区别X86指令集。Intel的EM64T支持64位sub-mode,和AMD的X86-64技术类似,采用64位的线性平面寻址,加入8个新的通用寄存器(GPRs),还增加8个寄存器支持SSE指令。与AMD相类似,Intel的64位技术将兼容IA32和IA32E,只有在运行64位 *** 作系统下的时候,才将会采用IA32E。IA32E将由2个sub-mode组成:64位sub-mode和32位sub-mode,同AMD64一样是向下兼容的。Intel的EM64T将完全兼容AMD的X86-64技术。现在Nocona处理器已经加入了一些64位技术,Intel的Pentium 4E处理器也支持64位技术。
应该说,这两者都是兼容x86指令集的64位微处理器架构,但EM64T与AMD64还是有一些不一样的地方,AMD64处理器中的NX位在Intel的处理器中将没有提供。
11超流水线与超标量
在解释超流水线与超标量前,先了解流水线(pipeline)。流水线是Intel首次在486芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在CPU中由5—6个不同功能的电路单元组成一条指令处理流水线,然后将一条X86指令分成5—6步后再由这些电路单元分别执行,这样就能实现在一个CPU时钟周期完成一条指令,因此提高CPU的运算速度。经典奔腾每条整数流水线都分为四级流水,即指令预取、译码、执行、写回结果,浮点流水又分为八级流水。
超标量是通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。而超流水线是通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个 *** 作,其实质是以时间换取空间。例如Pentium 4的流水线就长达20级。将流水线设计的步(级)越长,其完成一条指令的速度越快,因此才能适应工作主频更高的CPU。但是流水线过长也带来了一定副作用,很可能会出现主频较高的CPU实际运算速度较低的现象,Intel的奔腾4就出现了这种情况,虽然它的主频可以高达14G以上,但其运算性能却远远比不上AMD 12G的速龙甚至奔腾III。
12封装形式
CPU封装是采用特定的材料将CPU芯片或CPU模块固化在其中以防损坏的保护措施,一般必须在封装后CPU才能交付用户使用。CPU的封装方式取决于CPU安装形式和器件集成设计,从大的分类来看通常采用Socket插座进行安装的CPU使用PGA(栅格阵列)方式封装,而采用Slot x槽安装的CPU则全部采用SEC(单边接插盒)的形式封装。现在还有PLGA(Plastic Land Grid Array)、OLGA(Organic Land Grid Array)等封装技术。由于市场竞争日益激烈,目前CPU封装技术的发展方向以节约成本为主。
13、多线程
同时多线程Simultaneous multithreading,简称SMT。SMT可通过复制处理器上的结构状态,让同一个处理器上的多个线程同步执行并共享处理器的执行资源,可最大限度地实现宽发射、乱序的超标量处理,提高处理器运算部件的利用率,缓和由于数据相关或Cache未命中带来的访问内存延时。当没有多个线程可用时,SMT处理器几乎和传统的宽发射超标量处理器一样。SMT最具吸引力的是只需小规模改变处理器核心的设计,几乎不用增加额外的成本就可以显著地提升效能。多线程技术则可以为高速的运算核心准备更多的待处理数据,减少运算核心的闲置时间。这对于桌面低端系统来说无疑十分具有吸引力。Intel从306GHz Pentium 4开始,所有处理器都将支持SMT技术。
14、多核心
多核心,也指单芯片多处理器(Chip multiprocessors,简称CMP)。CMP是由美国斯坦福大学提出的,其思想是将大规模并行处理器中的SMP(对称多处理器)集成到同一芯片内,各个处理器并行执行不同的进程。与CMP比较, SMT处理器结构的灵活性比较突出。但是,当半导体工艺进入018微米以后,线延时已经超过了门延迟,要求微处理器的设计通过划分许多规模更小、局部性更好的基本单元结构来进行。相比之下,由于CMP结构已经被划分成多个处理器核来设计,每个核都比较简单,有利于优化设计,因此更有发展前途。目前,IBM 的Power 4芯片和Sun的 MAJC5200芯片都采用了CMP结构。多核处理器可以在处理器内部共享缓存,提高缓存利用率,同时简化多处理器系统设计的复杂度。
2005年下半年,Intel和AMD的新型处理器也将融入CMP结构。新安腾处理器开发代码为Montecito,采用双核心设计,拥有最少18MB片内缓存,采取90nm工艺制造,它的设计绝对称得上是对当今芯片业的挑战。它的每个单独的核心都拥有独立的L1,L2和L3 cache,包含大约10亿支晶体管。
15、SMP
SMP(Symmetric Multi-Processing),对称多处理结构的简称,是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。在这种技术的支持下,一个服务器系统可以同时运行多个处理器,并共享内存和其他的主机资源。像双至强,也就是我们所说的二路,这是在对称处理器系统中最常见的一种(至强MP可以支持到四路,AMD Opteron可以支持1-8路)。也有少数是16路的。但是一般来讲,SMP结构的机器可扩展性较差,很难做到100个以上多处理器,常规的一般是8个到16个,不过这对于多数的用户来说已经够用了。在高性能服务器和工作站级主板架构中最为常见,像UNIX服务器可支持最多256个CPU的系统。
构建一套SMP系统的必要条件是:支持SMP的硬件包括主板和CPU;支持SMP的系统平台,再就是支持SMP的应用软件。
为了能够使得SMP系统发挥高效的性能, *** 作系统必须支持SMP系统,如WINNT、LINUX、以及UNIX等等32位 *** 作系统。即能够进行多任务和多线程处理。多任务是指 *** 作系统能够在同一时间让不同的CPU完成不同的任务;多线程是指 *** 作系统能够使得不同的CPU并行的完成同一个任务。
要组建SMP系统,对所选的CPU有很高的要求,首先、CPU内部必须内置APIC(Advanced Programmable Interrupt Controllers)单元。Intel 多处理规范的核心就是高级可编程中断控制器(Advanced Programmable Interrupt Controllers--APICs)的使用;再次,相同的产品型号,同样类型的CPU核心,完全相同的运行频率;最后,尽可能保持相同的产品序列编号,因为两个生产批次的CPU作为双处理器运行的时候,有可能会发生一颗CPU负担过高,而另一颗负担很少的情况,无法发挥最大性能,更糟糕的是可能导致死机。
16、NUMA技术
NUMA即非一致访问分布共享存储技术,它是由若干通过高速专用网络连接起来的独立节点构成的系统,各个节点可以是单个的CPU或是SMP系统。在NUMA中,Cache 的一致性有多种解决方案,需要 *** 作系统和特殊软件的支持。图2中是Sequent公司NUMA系统的例子。这里有3个SMP模块用高速专用网络联起来,组成一个节点,每个节点可以有12个CPU。像Sequent的系统最多可以达到64个CPU甚至256个CPU。显然,这是在SMP的基础上,再用NUMA的技术加以扩展,是这两种技术的结合。
17、乱序执行技术
乱序执行(out-of-orderexecution),是指CPU允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后,将能提前执行的指令立即发送给相应电路单元执行,在这期间不按规定顺序执行指令,然后由重新排列单元将各执行单元结果按指令顺序重新排列。采用乱序执行技术的目的是为了使CPU内部电路满负荷运转并相应提高了CPU的运行程序的速度。分枝技术:(branch)指令进行运算时需要等待结果,一般无条件分枝只需要按指令顺序执行,而条件分枝必须根据处理后的结果,再决定是否按原先顺序进行。
18、CPU内部的内存控制器
许多应用程序拥有更为复杂的读取模式(几乎是随机地,特别是当cache hit不可预测的时候),并且没有有效地利用带宽。典型的这类应用程序就是业务处理软件,即使拥有如乱序执行(out of order execution)这样的CPU特性,也会受内存延迟的限制。这样CPU必须得等到运算所需数据被除数装载完成才能执行指令(无论这些数据来自CPU cache还是主内存系统)。当前低段系统的内存延迟大约是120-150ns,而CPU速度则达到了3GHz以上,一次单独的内存请求可能会浪费200-300次CPU循环。即使在缓存命中率(cache hit rate)达到99%的情况下,CPU也可能会花50%的时间来等待内存请求的结束- 比如因为内存延迟的缘故。
你可以看到Opteron整合的内存控制器,它的延迟,与芯片组支持双通道DDR内存控制器的延迟相比来说,是要低很多的。英特尔也按照计划的那样在处理器内部整合内存控制器,这样导致北桥芯片将变得不那么重要。但改变了处理器访问主存的方式,有助于提高带宽、降低内存延时和提升处理器性能。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12778851.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存