畅谈微处理器和SoC设计技术的发展趋势|微处理器发展趋势_服务器

Chris Rowen博士是微处理器领域的资深专家,也是SoC设计的开拓者之一。最近Chris Rowen博士在北京就微处理器和SoC设计技术的发展趋势回答了记者和与会专业人士的提问,引起了许多听众的兴趣。现将会上的提问和Chris Rowen博士的观点,根据记录整理,供有兴趣的读者参阅。

问题1:您如何看待再6年之后的SoC设计,或者说SoC 设计6年后的技术发展趋势如何
Chris Rowen :我认为这个市场的大方向还是相当清楚的。看看市场层面的基本趋势,再看看技术层面的基本趋势,你就可以看到他们在哪里重合。就技术而言,你会发现摩尔定律(Moore’s Law)作为经济驱动力的事实。但是摩尔定律真正有趣的部分在于 “集成度(Density)持续提高”。每隔2年半或者3年,硅密度就要提高一倍,这意味着近一倍成本的降低,可以使射频产品中数字模块的集成度越来越高。这也意味着,各种系统都在尺寸大小(Scale)上变得越来越小。所以无论是电脑亦或消费电子设备,每一个系统的目的都是集成于同一块芯片。这就变得有趣起来。因为在过去,你可以生产通用(Generic)存储器,通用处理器,通用射频等等,然后组装在一块儿,建一个非常好的专用(Specific)系统。但是在今天,事情都颠倒过来了。现在希望把许多不同的功能线路集合到一块芯片上。当然在这个意义上,你还是得搞出一块专用芯片。但是挑战变大了,因为芯片本身需要更加专注于某一个特殊应用,而专用处理器、内部总线等等功能部件,也要变得更小更强更快!
但是,摩尔定律并没有在晶体管层面带来太多的功率改进。在过去,当东西变小了,功率自然就降低了,所以工程师也从来不考虑芯片架构(Architecture)问题。而现在,如果工程师想要优化功耗,首先就要优化架构。他得考虑如何才能更有效地完成这个计算譬如用更少的晶体管门或者运算周期,甚至在这个任务不运行的时候关闭掉相应子系统等等。总之,需要考虑智能化的问题(Intelligent)了。
举个例子,如果你想做个手机,就必须要注意区分不同的使用场景,譬如是听音乐、看YouTube视频、发短信、上网,或者煲电话这些都是完全不同的情景。你得更细心,更积极地考虑关掉所有暂时没用的子系统。因此对于芯片设计师(Chip Architect)或者系统设计师来说,这是最好的时代,因为有这么多的事儿可做。但对于一个从事晶体管层面的工作人员(Transistor Guy)而言,这可真是最坏的时代啊!一切都已经上升到系统或者应用的级别。而晶体管性能的提高,功耗的降低,与面积的缩小都遇到难以克服的困难。这就是技术领域正在发生的大事件。

问题2:未来几年市场方面的变化呢
Chris Rowen :说到市场。我认为最大的趋势是向移动化的方向发展,因为人们的生活方式已经彻底改变了。当你可以随身携带那么多的设备,就会希望能够持续地连接到互联网上。这种影响不仅表现在设备上,还表现在无线基础设施,以及云计算上。而且经济层面的影响,将会随之变得非常,非常深远。因为你会看到,譬如在这种设备 (Chris拿起手里的iPhone开始演示)的层面,无线连接的带宽起码还要提高30倍。为了获得足够丰富的娱乐体验,我们或许需要几十甚至几百兆比特的带宽。在世界每一个地区,高端用户越来越多。中国就是一个鲜活的例子。不光如此。在印度、南美、非洲、加勒比海地区,人人都希望持续不断地连接到互联网。
所以,你必须很好地设定人们日益增长的期望值。现在具有10倍的宽带人,每个人都希望进一步能有30倍的宽带,因此就出现了300倍的宽带要求。而系统的每个层面都需要满足这种需求。对于无线基础设施制造商来说,他们的机会是巨大的。譬如华为。但是制造商是没可能赢得300倍收入的。他们有可能获得更多的收入, 但不是三百倍以上。因此,他们必须在得到大幅增加带宽的同时,大幅降低资金成本(Capital Cost)和经营成本(Operate Cost)。

问题3:那么接下来在SoC设计上会有什么变化
Chris Rowen:以无线基站为例。传统上它们是昂贵的。需要使用通用芯片、通用DSP、通用FPGA。可是今天,为了满足对带宽的要求,您需要更多的高度定制的SOC和芯片平台,软件的需求也上升很快。所以这将使集成度更高,每块芯片上集成更多的DSP,而每块DSP上嵌入更多的软件程序,甚至是软件内容的爆炸性发展。
有趣的是,所有网络基础设施(Network Infrastructure)的功耗都是巨大的。因此即使仅仅从绿色节能考虑,开发更加紧密集成的系统也是异常重要的。基站将明显变小,这意味着整个基站都可能缩小变成塔顶的一个小盒子。
当然在系统层面,你一旦降低了功耗,降低成本也就水到渠成了。所以这两者之间是一个非常良性的关系。关键是硅晶圆的集成。这也是Tensilica会如此迅速成长成为世界领先的DSP内核供应商之一的原因。
甚至可以看到这种变化体现在云计算上。因为现在你需要300倍的带宽,也就相应地对视频服务、视频压缩、互联网数据库搜索、社会网络如此等等, 都提出了更高的需求。而所有这些事情,真的都是很复杂的应用程序呢。
不过有趣的是,他们都是些并行的应用程序。这是个好消息。因为在计算机业已经发生的一件事情便是,单个微处理器的速度已经很难再提高了。Intel 在1990年,戏剧性地发现了单处理器性能呈指数增长的改善。但是他们也旋即发现当处理器频率达到约35到4GHz的时候,功率密度(Power Density)遇到了瓶颈。于是,他们开始尝试多核技术。
还好广大客户想做的事,基本都是天然就可以并行处理的。所以,你在做互联网数据库检索(Internet Database Search)的时候,确实可以设置多内核、多芯片,甚至多系统。因为你的查询请求通常将被发往多个地点。所以在互联网云计算的领域,运用多核的机会无比广阔。
但是有一个问题必需考虑,就是你如何在有效的MIPS指令内获得足够低的功耗。或者说,如何设计电池寿命最长的移动设备,和最可扩展的服务器之间取得平衡因为所有都和功耗有关,而并不是只和峰值的性能有关。

问题4:那么Tensilica如何来克服在功耗上的挑战和竞争对手比起来又有何特点
Chris Rowen: Tensilica赞同为特定的任务去优化处理器。优化流水线(Pipeline),优化接口,优化设计层面,然后把多个内核放在一起,以建立一个多核系统。这种优化的能力将产生巨大的影响。我将谈一谈Turbo解码器的专用(Specialized)处理器。 Turbo是一种特殊的算法,可以从嘈杂的噪声中提取有用信息,在一个工作周期(cycle)内,这个解码器可以执行大约3万次RISK指令。是的,通用的压缩(Compression)处理器只能执行一次指令,而这个专用处理器可以执行3万次。当然这是一个极端的例子,只是想表明当你知道你的问题在哪里,你就可以做出很多令人难以置信的事情。并行,从而获得了难以置信的高效率。
同样的原则也适用于其它场合,适用于各种其它门类的专用DSP、无线接收器,适用于基带和音频的通用DSP,也适用于客户意欲进行视频处理或其它图形压缩、安全 *** 作、网络协议处理,以及广泛应用于射频的深嵌入式控制(Deeply Embedded Control)。
Tensilica特别集中精力于那些能够专门优化的能力,以及确实能够方便使用的多核能力。因此,我们和传统的CPU厂家不同,譬如Intel、ARM、MIPS等等。他们都面临一个相同的物理问题,摩尔定律在给了他们更多的晶体管之后,却没有给他们更好的功率控制,对不对
他们很少去考虑并行的问题。而与之相反,我们在应用层面非常努力地工作,以期寻找到解决方案。在云计算那段,我们确实可以将任务分割成很多子任务,但是当我在这里玩游戏时(Chris又一次拿起手里iPhone开始演示),我真的被限制了。你看,一个手指只能玩一样东西。因此在应用处理器的层面,你真的无法得到啥好处。MIPS、ARM,甚至还有Intel,都面对着这样一个无法在当前硅科技下有效完成多任务的问题。而那是我们擅长的。
我们看到这个市场在迅速增长,去年的出货量增长了大约70%。然后我们会试图进入所有的DPP(Data-Plane Processor)领域,包括DSP、音频视频、安全,以及深嵌入式控制,这其实和应用处理器的范畴离得很远。所以啊,我们常常会发现自己和MIPS、 ARM或Intel出现在同一块芯片上。因为有这么多不同的处理器,在Date- Plane里又有这么多不同的任务,那些小而高效的处理器会有很多机会。
这种对于应用处理器或者接口的互补性,甚至于可以让应用处理器在执行类似于信号处理这种实时任务的时候,也完全关闭。或者比如多媒体应用,应用处理器当然可以去做,但是如果我们优化专用音频DSP的话,将获得4到5倍的效率。尺寸更小,单位时间内的吞吐量却更大。而且可以用如此多的音视频处理器够你选择。所以几乎任何时刻,系统设计师或者SoC设计师都可以通过区别应用场景的方式,来决定卸载(Off Load)某个处理器。
这也是为什么我认为我们可以在音频方面取得这么大的成功。当你正在设计一个手机,或者阅读显示器,或者机顶盒,或者数字电视,或者数码相机,你会说,啊,这里有一种场景需要我做大量音频的工作。于是,把那种卸载很自然地就被设计到基本构架里去了。
而且,我们可以为应用层面的处理器自动生成软硬件,尤其是基于音频和基带的非常全面的软件库(Software Libraries)。因此,不管是否是有经验的人员,在我们提供的资料库里都能找到他们所有需要的软硬件解决方案,以帮助他们最快地进入市场。集成音频、集成基带,或者其它各种功能。

问题5;那么Tensilica有什么具体的应用吗
Chris Rowen:移动电话是一个巨大的市场,一个可以满足之前所说带宽需求的市场。特别是当前正从3G向4G升级过度,大家都聚焦在LTE身上。不仅因为LTE看上去很像是最后标准的胜者,也因为它非常像WiMax。我们已经能够提供参考设计,帮助客户建立他们自己定义的多核LTE手机,在市场中抢得先机。这只是一个我们进入市场领域的一个例子。
我们也在做一个很类似的数字电视解调器。因为有人希望既能适合移动应用,又能适合起居室应用。这里有个很大的问题,就是全世界在视频领域有好多不同的标准和概念,而每个人都真心希望拥有一块可以解决一切问题的视频芯片。我们准备来设计一块。其实应用一样的原理,就是找些DSP和专用核,优化最密集的任务,并充分利用我们最重要的能力――生成处理器的功率效率非常小,以及和世上最稳定的通用DSP一样易于编程的软件工具。昨天晚上客户还和我们说,DSP如此受人关注的最主要原因就是可编程。我们同样在努力使编译器更强大,使程序模型简单,使程序员更不 *** 心。我们还在微处理器的流水线设计上增强了视觉效果。
因此,我们拥有一个非常高效的处理器。但是效率(Efficiency)这个词值得商榷。传统意义上而言,效率就是指最少的门数、最小的功耗。但效率也应包括将产品推向市场的时间。需要多少工程师才能部署好这个系统每行代码的成本是多少每个工程师小时(Engineer Hour)所需要的工资除了硅片层面的效率以外,测量的效率同样也是重要的参数。我认为我们在这两面都需要注意。刚才讨论的那种架构,也特别适合在大量出货的领域。移动设备、客厅设备、数码相机,这些都是我们做得非常好的地方。
我们主要是在DPP方面拥有很强的知识积累,但同样的影响也已经开始在云计算上面出现。当然,现在云计算的变化还比较慢,部分原因是它并非对功耗如此敏感,但我认为整体上还是会有影响的。

问题6:您会在很多其它领域譬如数字电视和有线通信,使用这种结构么
Chris Rowen:当然。那些可以为不同应用优化处理器的架构是很重要的。而且我们也发现,即使在一个新的水平,很多需求也是相似的。因此同样的Hi-Fi工具,同样的音频DSP,既可部署在世界最好的智能手机上,也同样可以部署在最好的数字电视、蓝光(Blue Ray)影碟机上。因为它们都要求非常小而快。
同样,如果你看一下Altas LTE的内部架构,其主要构造模块BBE16或许是世界上最快的DSP核。而它同样也在数字电视解调子系统中使用。所以,我们看到在手机和客厅座机之间,在这两个媒体处理器和基带处理器之间,都有着共同的需求。

问题7; 您说芯片的整合将集中在射频、存储和数字电路。那么您觉得它们三者有可能整合成一个吗
Chris Rowen:嗯。如果你从半导体工艺(Semiconductor Process)技术的角度来看,我认为在晶体管和器件优化的层面将会发生变化。我们正与很多客户一起工作,通过采用更多的数字处理器,以简化射频电路。由于数字电路的生产成本可能降低的幅度更大,更快;我们一般希望多采用数字处理器,以尽量减少射频电路。因此,我们会越来越依赖于数字方面的有效解决方案。
同样的事情发生在存储器。人们偶尔也会使它们结合在一起,但不是一个简单的组合,内存的加工设施(Fabrication Facility)有特殊性。所以我相信,多芯片封装(Multi-Chip Packaging)将越来越重要。尤其当你将芯片(Die)一块又一块摞起来的时候。所以,你可以在数字芯片组上面摞存储芯片组,然后在上面再摞射频芯片组。这在成本上可能是最划算的。当然也可能把它们所有三个都放在一块硅片上。这取决于成本,以及开发的周期。
但是,我想我们还会坚持三套不同的加工工艺,然后依靠封装技术来整合在一起。
但你要知道还有个巨大的挑战,就是应用产品的缩小还是有一定的限制的,他需要适应人们的手指,和两只眼睛。决定于使用是否方便。我们在元器件层面的小,其实是对应于我们自己可以接受多小的屏幕和按钮。

问题8: 几天之前,Xilinx宣布嵌入ARM 的Cortex A9核。您觉得这是否是一种新趋势是否与Tensilica的 DPU形成竞争呢
Chris Rowen:这种往FPGA中嵌入处理器的工作,大概在10年前就开始了。大约在8年前,Altera也曾宣布他们嵌入ARM的处理器啊,(有人插话:没错!)
所以,这就跟任何一个系统想要找块芯片,或者将三块芯片装配在一块儿,没啥区别。当然,偶尔你也会碰巧搞出一块啥都囊括了的数字芯片。话说回来,FPGA有一个最重要的优点就是通用性。但祸福相倚,要是让它专注做一件事的话,也就不是那么有效率了。所以,如果你想真正有效地利用处理器,我估计你会情愿将处理器嵌入一个稍微稳定点的装置里,而不是FPGA。
我认为这是非常自然的一步。Xlinx以前也搭过Power PC,对吧这其实是一码事。它压根没有改变任何原有的架构,也没有在CPU和FPGA的功能之间取得任何逻辑上的融合(Merge)。
当然,FPGA是很容易配置的,而且价格也便宜。因此,他们占据了一部分的市场,尤其是那些量低而开发成本又低的市场。因此,我们在市面上看到大量的 FPGA设计。但是基于FPGA的设计总量是很小的。它其实是一个利基(Niche)市场。极端地说,即便有很多工程师在使用它,但几乎所有都是低产量的。
我的意思是,FPGA虽然很重要,但不是Tensilica公司关注的。我们专注于高产量的产品。当然偶尔也会重叠。譬如基站。以前有很多基站是采用Altera的储存方案的。慢慢地我们看到越来越多因为容量、成本和功耗的要求,已经从FPGA转向更加高集成度的芯片解决方案。

问题9: 以前我在IEEE的设计与测试(Design & Test)杂志上看到一篇您的谈话。您说,如果我们想要进入嵌入式系统设计的大规模并行领域,可配置的多核处理器SoC就有一些问题必须得到解决。几年前,您还提到过,Intel最大的问题是怎样为通用计算应用配置多核处理器。您现在还觉得多核处理器的配置有困难吗
Chris Rowen :对于多核应用而言,确实存在着一些困难。例如如何找到足够多的线程 (Thread)来运行。但它不是Intel单独遇到的问题。这是一个涉及到应用程序是如何被调用,以及在当下如此小型的设备上如何架构的问题。即便打开我自己的笔记本电脑,想看看到底有多少个线程准备在跑,它基本上都是很少的。通常情况下, *** 作系统、用户界面和应用程序开发等等所调用的方式,都完全没有最大化利用线程的数量。
所以,我认为你在基本的架构层面可以做的,就是提供更多的线程运行,并且充分地利用到并行。当然在应用层面也会有很多层级限制。你知道现在很方便就可以搞个四核,八核,十六核的,但是在PC这一端,相对于服务器,只有相对较少的条件可以让我们找到这些线程。问题在于 *** 作系统和应用程序需要逐步重组 (Restructuring)。
另一个同样重要的现象是,确定哪些任务可以被放进数据层(Data Plane)。让我们来想想哪些东西通常是可以被放进数据处理器的,譬如在无线信道这类的通讯子系统,譬如存储系统,比如你怎么分发数据,或者你知道的,安全冗余,也可能是针对压缩流(Packing Stream)的特殊网络处理器,它可以是视频也可以是音频。这些东西其实是更本质(Inherently)的并行处理。
所以,我觉得这里有两种并行重组。其一是,提供更多的线程应用。另一种是为了维持整体系统中卸载(Off Loading)并行部分的最大值,并让之进入数据层。实际上我认为,在数据层提取并行是更容易 *** 作的。因此,在数据层有效使用多核的数量,远大于单单在应用层面使用的多核。从这一方面考虑我们认为我们是走在康庄大道上。关注于数据层,可以使我们在多核方面的成长速度大大超过那些只盯着应用层面的同行。

问题10: 那么在手机上就不是个问题了
Chris Rowen:可以这么说。这变得相当容易,让我们举一个LTE基带(Baseband)的例子吧。我们的Atlas平台可以设计八核,这取决于你想怎么用。DoCoMo和他的合作伙伴,NEC、富士通以及松下,已经宣布并且详细描述了他们LTE基带架构。第一代是8到 10核。另一个叫做Blue Wonder Communication的合作伙伴也推出了他们的8至10核的LTE基带。因此,现在就有三种不同的LTE基带,而这三种都使用了8个核或更多。在这个层面上是可以有大量的并行解决方案的。
再看看下一代的LTE,大概有六点性能方面的因素需要考虑。其中一些是单核怎样可以更快,但更大部分是和多核有关。所以我们很容易找到那些有效应用20核甚至更多核于单一功能譬如基带的案例。我觉得在数据层和应用层上,多核是有完全不同的机会的。

问题11;最后一个问题。您当年在斯坦福参与奠基了RISC 架构,后来也曾是MIPS的共同创始人。那么,请问您如何看待RISC架构的未来依旧是ARM和MIPS之间的战争,抑或会发生一些新的大事件
Chris Rowen:从本质上看,这场关于CISC和RISC架构的争论,其实仍不过是通用 (General Purpose)架构之间的竞争罢了。RISC赢得了一定胜利,占领了一些领域。但是遵循摩尔定律的发展,可以轻松的增加晶体管数目。一个RISC解码器可能要一万门,而CISC解码器需要五万门。其实也差不多了多少。
不过我觉得除了通用架构之间的竞争以外,还有一场更加深远的革命。我们现在来比较通用架构和大量的特殊用途的(Special Purpose)架构,怎么样几乎任何时候你都可以说,如果一个产品是围绕某种特定的需求来设计,那么特殊用途架构肯定会胜出。RISC贬了CISC一段时间,因为它的效率可以高出2倍以上。那么为具体应用特殊定制的架构,就比所有通用架构的效率高出5至10倍以上。
因此,这个世界不能再简单分成我的通用架构,和你的通用架构。当然对于那些非常分散(Defused)并且普适(Generic)的应用程序,就好比在笔记本上用的那些,我们还是需要通用架构的。因为一会儿你要看视频,一会儿又要运行Word或打游戏,或者运行Excel工作表。是非常多样的。所以你需要一个德智体全面发展的处理器。不能太特别专门化。
但是,你不得不面对一个世界,那里有各种各样不同的任务,而每样任务都是独特的。而且更为重要的是,当你在芯片上能够集成更多的片上系统时,你越会发觉有足够多的处理器适用于各种特定的应用子系统的优越性。
因此对于我来说,计算的未来不是产生新的通用架构,而是特殊用途架构的集合。譬如一个音频子系统、视频子系统,一个基带子系统、存储子系统,还有应用处理器子系统。其中只有一个需要通用的结构(Construction),其它的都将是特殊的架构。在科学上,摩尔定律带来多核,多核又将带来特殊架构的解决方案。异型多核(Heterogenic Multi-Core)就是一种新架构。而且我觉得会成为主流。Intel、ARM、MIPS这些公司当然还会有很大的市场,但只限于应用处理器领域。其实从科学发展观察,通用目的(General Purpose)最终总是会变成某一个特殊目的(Specific Purpose)的。
(根据记录整理,略有删节)

转眼时间就到了年中，手机界各种芯片之间的性能对比相信大家已经看得很多了，尤其是麒麟9000与骁龙888这一对安卓阵营顶级芯片之间，各种维度的比较都很多。不过，由于季节是从冬春季步入夏季，相信大家有一个感觉会逐渐被放大——手机发热甚至是发烫，尤其是在打游戏的时候。那么问题来了：夏季高温情况下，手机功耗与发热多大程度上会被高温影响？笔者就来专门测一测，看看麒麟9000与骁龙888在夏季高温的时候，谁的功耗上升慢，谁的发热控制好，谁更适合在夏季使用。

为了让测试具有实际参考性，笔者分别进行了室外高温+常温极限两个测试环境。使用的机型则是两款万元高端机，华为Mate40 RS保时捷设计与三星S21 Ultra，测试游戏分别是《王者荣耀》、《和平精英》、《原神》三款游戏，覆盖小型、中型与大型游戏三个档位，对性能与功耗的要求逐步升级。

简单看下两款处理器。麒麟9000使用了台积电的5nm工艺，搭载三档八核CPU，GPU首发24核Mali G78，NPU是达芬奇架构20，标配巴龙5G基带，性能直接拉满的同时能效比大幅提升，堪称是史上最强麒麟。

骁龙888使用了三星5nm工艺，CPU也是三挡八核架构，GPU升级Adreno 660，DSP升级Hexagon 780，标配X60 5G基带，性能飙升，是高通最强SOC。

除了SoC的配置，再来看看移动端芯片综合性能排行，麒麟9000综合得分1264，骁龙888得分1186，麒麟超过骁龙成为安卓移动芯片第一。综合性能有所差别，又差别在哪里，实际体验怎么样？下面进入测试。

为了测试的准确，笔者分别对三款游戏都分别进行了空载功耗测试，来排除屏幕这个耗电大户对功耗的影响，最大还原玩游戏中处理器尤其是GPU的功耗情况。

实测两款手机空载功耗如上：

通过空载功耗可以看到，两款手机的屏幕耗电差距并不明显。下面正式进入今天的主题，麒麟9000与骁龙888的性能+功耗+发热PK。

20分钟不间断测试，PerfDog监测的数据结果如下：

（提示：有四次帧率低谷，均是因王者结束重开导致）

先看帧率，两款手机都保持在了60帧左右的高水平，除了结束一局重开中间的四次加载掉帧（华为Mate40 RS开了3局，三星S21 Ultra开了一局），玩王者都毫无压力。

再看功耗，去掉空载功耗并简单计算功耗差值，麒麟9000比骁龙888低862-709=153 mWh，计算得到骁龙888比麒麟9000的功耗高153 709=194%。意味着骁龙888每玩80分钟的王者，麒麟9000就可以玩将近100分钟，这个功耗差对续航的影响比意料之中的要大。

发热方面，麒麟9000玩20分钟后最高温达到了397 ，骁龙888达到了409 ，温度差达有12 ，属于温热到微烫的一个手感程度，夏天还可以接受。

小结：玩王者荣耀，麒麟9000与骁龙888性能不相上下，但麒麟9000功耗有20%多的优势，同时温度更低。

30分钟不间断测试，PerfDog监测的数据结果如下：

（提示：有三次帧率低谷，均是因和平精英结束重开导致）

先看帧率，华为Mate40 RS比三星S21 Ultra低了 396-392= 04帧，原因并不是麒麟9000性能不足，而是因为有一局快速成盒子了，导致多一次，与上面测试王者遇到了一样的问题。简单来说玩吃鸡，麒麟9000与骁龙888也没什么压力。

再看麒麟9000与骁龙888的功耗差值，达到了1479-1047=432 mWh，计算得到麒麟9000功耗比骁龙888低 432 1047= 41 3 %，这个差距吓到我了，毕竟这次对比的对象不是7nm的骁龙865+ 。

为什么骁龙888功耗会更高？或许发热能说明一些问题。麒麟9000玩和平精英30分钟最高温402 ，只是比王者荣耀高了05 ，说实话这个发热还是蛮出乎意料的。而骁龙888温度则同比升高了11 ，从温热变为了轻度烫手的42 ，尤其是边框会更加明显，骁龙开始“上火”了。

小结：在中度性能与持续发热的影响下，麒麟9000在能效比上把骁龙888甩开了，省电优势继续拉大。

由于三星S21Ultra原神会锁帧到40，所以都选择了同一标准的30帧测试，PerfDog的监测数据如下：

（提示：原神不会因为死亡重开，所以图中帧率波动均是处理器真实性能反馈）

先看帧率，这次没了游戏打完一局重新开始的影响，紫色线的麒麟9000平均帧率比绿色线的骁龙888高了 299-276= 2 3 帧，虽这个领先并不多，但是细看帧率波动线就可以发现，麒麟9000几乎没有过大的帧率波动，甚至帧率方差Var是0，但骁龙888却一直有很大的波动，帧率方差Var达到了166，游戏中会很多次感受到明显的掉帧。

再看功耗，玩原神的功耗差值变为了 1342-1037= 305mWh，骁龙888在原神上功耗比麒麟9000高 305 1037= 294%，相比和平精英的41%大幅降低，是不是意味着这才是骁龙的真实实力？别着急先表态，下面还有发热数据。

发热方面，麒麟9000温度升到了418 ，玩游戏会明显感到烫手了。骁龙888温度则是升到了432 ，虽只比麒麟高了14 ，但却第一次攀升到了43 以上，玩游戏会感到更明显的烫手，骁龙888功耗下降的原因也找到了——发热降频，导致功耗下降，算是一个有失有得的结果。

小结：通过王者、和平精英、原神三款游戏的一个高温环境测试，发现Mate40 RS确实比三星S21 Ultra体验优势明显，在高温天麒麟9000的性能输出更加持久、稳定，CPU+GPU高能效比进一步凸显，游戏发热更低、功耗更低。骁龙888则像是一个反面，虽性能强劲，但能效比低与可能的调度问题，遇到中高性能需求时会快速升温，导致要么是功耗大幅增加，要么是为了降发热而卡顿掉帧。

为了进一步证实以上的猜测，笔者又用和平精英与原神两款游戏做了更进一步的测试。

在户外通风环境下，和平精英选择了90分钟连续不间断的实测，PerfDog监测的数据结果如下：

（提示：有七次帧率低谷，华为重开4次，三星重开3次）

帧率波动图如上，使用麒麟9000的华为Mate40RS很不幸地又比使用骁龙888的三星S21 Ultra多重开了一局，导致帧率骁龙888比麒麟9000高396-393=03帧。两款手机的帧率波动除了重开的大幅下降，和平精英连续玩中并没有出现明显波动，都拥有良好的游戏帧率表现。

在功耗上差值上，骁龙888比麒麟9000多了3177-2615=462mWh，整体功耗骁龙比麒麟高462 2615=177%，两款处理器的功耗差继续变小了，这种变化的原因是什么，咱们接着看发热，或许能告诉我们为什么。

温度上，麒麟9000从上一次和平精英测得402 上升到了42 ，升温18 ，麒麟也进入了烫手阶段。骁龙888则是从42 直接上升到了44 ，升温2 ，从火热升级到“火烫”阶段。

这样一对比，或许就能明白麒麟9000功耗从比骁龙888低41%升到低177%的原因了，即使麒麟9000的能效比高与发热低，但是长时间的游戏也会让发热累积到一个高度，导致处理器能效比降低，进而功耗就升高了。

带着探究的精神，进行了原神最后30分钟的测试，华为三星两款手机全开60帧+最高特效，即使三星锁帧40，也要看看到底会有什么结果。PerfDog监测数据结果如下：

这一次先看功耗，麒麟9000功耗比骁龙888高了 2035-1851= 184mWh，也就是高了 184 1851= 99%，这是骁龙888功耗首次战胜麒麟。对比第一部分内容中的原神30帧的功耗测试结果，麒麟9000同比增加了962%，骁龙888同比增加了379%，看来降低用户体验的锁帧对于骁龙888来说确实一个省电的好办法。

（提示：原神不会因为死亡重开，图中帧率波动均是处理器真实性能反馈）

再看帧率，在三星锁帧40帧的情况下，华为Mate40 RS平均比三星S21 Ultra高562-387=175帧，计算得到华为帧率比三星高175 387=45%，帧率上这一次华为跑原神拥有碾压之势。同时从帧率曲线图上也可以看到，华为与三星这次都很吃力，两者都有明显的大幅度掉帧。

结合帧率与功耗，也就是说在功耗高99%的情况下，麒麟9000最高实现了比骁龙888高45%左右的性能输出，当然这么换算可能不准确，但依然具有一定可参考价值。

最后再来看看性能跑满的情况下，发热会如何，由于两款手机的极限温度都出乎意料，因此这次正反面的发热都记录了。

华为Mate40 RS正面最高温度451 ，背面最高温度449 ，已经达到了很烫手的地步，这也是笔者第一次把华为Mate40 RS玩到这个温度，可以称得上是“烤机了”。

三星S21 Ultra正面最高温度465 ，背面最高温度472 ，手感温度已经到了一个感觉会boom的地步，“火龙”正式露出了真面目。要知道这还是骁龙888锁帧40帧的结果，如果不锁帧突破50 大关也不是没有可能。当然，如此高温也可能与三星的散热优化不足有关，这也是一个重要影响因素。

结合功耗、帧率与发热温度三者可以发现，虽麒麟9000跑满原神会功耗大幅增加，同时温度大幅升高、帧率波动增大，但整体的功耗水平、发热水平都依然比骁龙888低，不得不说这已经不是一个可以用能效比、性能来简单解读的了，会涉及到更深层次的芯片设计、芯片制造的制程工艺、芯片封装工艺、芯片性能调度机制、芯片与手机的深度耦合适配、以及类似于GPU Turbo等底层软件技术等，用一个个的前沿技术，才能把麒麟9000打磨的超出行业表现。

通过两轮使用情形的对比，可以发现麒麟9000相比骁龙888在持续的高性能输出、高能效比、低发热上有着明显的优势。对于游戏党来说，可能骁龙888与麒麟9000在王者这类小游戏体验不会有太明显的差别，都是安卓阵营最顶尖的存在。但当面对高温天气+原神这种大型游戏的时，麒麟9000的高性能+高能效比+低发热优势就凸显出来了，同比更低温+长续航。至于网友们会怎么选择或者有什么看法，相信看完这篇深度对比已经有了答案。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10755932.html

畅谈微处理器和SoC设计技术的发展趋势|微处理器发展趋势

发表评论

评论列表（0条）