未来芯片制造的方向在哪里?近期Arm给出了答案,那就是塑料芯片。据悉ARM与PragmatIC研发了6年,在2015年的时候,ARM就透露了基于Cortex M0的塑料芯片研发计划,近日Arm 近日与 PragmatIC 终于生产出了第一颗塑料芯片,其研究还发表在了《自然》杂志上,这项成果引起了非常大的轰动。不过,Arm 的研究工程师 James Myers 表示,塑料芯片目前使用的是只读处理器,只能运行内置代码,编程能力现在还未能实现,预计不久将会实现这个功能。
Arm具体的做法是尝试将芯片电路和组件打印在塑料基板上,就像打印机在纸上打印墨水一样。这种芯片可以通过将电路直接印刷到纸张、纸板甚至布料上来实现,大幅降低了生产成本。但采用柔性塑料制造芯片也有缺点,那就是性能、密度、效率方面会逊色一些。
在此之前,各个国家都在试图研发硅基芯片的未替代材料,大家一致把目光放在了碳基芯片上,这是被誉为未来芯片研发最有潜力的方向。目前在碳基芯片这一领域我国处在世界前列,有望对传统芯片实现弯道超车。
不过芯片制造是不是独立的,他是一个完整的产业链,需要各个环节中的相关企业配合。芯片产业链共包含五大领域:芯片设计、芯片制造、芯片封测、芯片材料、芯片设备。每个环节都是至关重要,对技术,设施设备,人才等方面的要求也是异常的高,所以,不管是硅基芯片,还是塑料芯片,从理论到商用,还需要很长的路要走,到底哪个能胜出,最基本的肯定是要满足低成本优势,低功耗的优势,目前只能交给时间。当然除了以上三中芯片,还有第三代半导体材料,比如GaN、GaAs芯片等。
本文主要介绍服务器的概念、常见的服务器技术和架构组成,此外将详细介绍磁盘、RAID知识,网卡概念、分类和主流厂商和产品,内容大致分为3部分。
第1章、服务器通用基础知识
简单来说,服务器就是在网络中为其他客户机提供服务的计算机;具有高性能、高可靠、高IO数据传输能力等特点,企业从基础的邮件、打印到核心应用如ERP、数据库等业务,再到我们所熟悉的互联网业务,创新大数据服务、天气预报HPC高性能计算等都离不开大规模服务器的支持。
服务器主要由CPU、内存、硬盘、模组、RAID卡组成,配合电源、主板、机箱等基础硬件组成。
CISC :主要是两家,包括IntelCPU(非安腾系列)、AMD CPU。
RISC: 服务器领域主要是IBM Power系列、Sun Spark系列,消费级的代表是ARM架构的CPU。
2017年7月,Intel正式发布了代号为Purley的新一代服务器平台,包括代号为Skylake的新一代Xeon CPU,命名为英特尔至强可扩展处理器(Intel Xeon Scalable Processor,SP),也宣告了延续4代的至强E5/E7系列命名方式的终结。
Xeon至强可扩展处理器不再以E7、E5的方式来划分定位,而代之以铂金(Platinum)、金(Gold)、银(Silver)、铜(Bronze)的方式。Skylake是新命名方式的第一代产品,Cascade Lake是是二代,共用Purley平台。
大型机 :普通人很少接触,用于大规模计算的计算机系统大型机通常用于政府、银行、交通、保险公司和大型制造企业。特点是处理数据能力强大、稳定性和安全性又非常高
小型机 :往往应用于金融、电力、电信等行业,这些用户看重的是Unix *** 作系统和专用服务器RAS特性、纵向扩展性和高并发访问下的出色处理能力。这些特性是普通的X86服务器很难达到的,所以在数据库等关键应用一般都采用“高大贵”的小型机方案。
x86服务器 :采用CISC架构处理器。1978年6月8日,Intel发布了一款新型的微处理器8086,意味着x86架构的诞生,而x86作为特定微处理器执行计算机语言的指令集,定义了芯片的基本使用规则。
ARM服务器 :ARM全称为Advanced RISC Machine,即进阶精简指令集机器。ARM是RISC微处理器的代表作之一,最大的特点在于节能。
C/S是Client/Server的缩写,服务器通常采用高性能的PC、工作站或小型机,并采用大型数据库系统,如Oracle、Sybase、Informix或 SQLServer,客户端需要安装专用的客户端软件。
B/S是Browser/Server的缩写,客户机只要安装浏览器(Browser),如Netscape Navigator或Internet Explorer,服务器安装Oracle、Sybase、Informix或 SQLServer等数据库。在这种结构下,用户界面完全通过浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现。浏览器通过Web Server 同数据库进行数据交互。
网卡在TCP/IP的模型中,工作在物理层和数据链路层,用来接收和发送数据。除了数据的收发,网卡还有一些其他功能:
1、代表固定的地址: 数据发送出去,发给谁,又从哪里接收。这都是通过IP区分的
2、数据的封装、解封: 比如寄一封信,信封里的信纸是data,信封是帧头和帧尾。
3、链路管理 :因为以太网是共享链路的,在使用时候可能会有其他人也在发送数据。如果同时发送,就会产生冲突,这就要求在发送的时候,检测链路的状态是否空闲;
4、数据的编码和译码 :在物理介质中,传送的是电平或光信号。这时就需要将二进制数据转换成电平信号或光信号。
5、发送和接收数据
我们再来说说网卡的分类。随着计算机网络技术的飞速发展,为了满足各种环境和层次的应用,出现了不同类型的网卡。
总线分类 :PCIe、USB、ISA、PCI,ISA/PCI等总线是比较早期的网络总线,现在已很少用了,USB接口的网卡主要用在消费级电子中。
结构形态:集成网卡(LOM)、PCIe标卡网卡、Mezz卡。
应用类型 :按网卡所应用的的计算机类型来区分,可以将网卡分为应用于工作站的网卡和应用于服务器的网卡。
电口,PC上常见到的那种网口接口,这种接口叫RJ45,使用的是普通的网线
光口,用于连接光模块,网卡上用于插光模块的接口,我们叫光笼子。
光模块按封装形式,可以分为SFP+、SFP28、QSFP+,其中SFP+和SFP28在结构外观上是一致的,可以相互兼容,只是SFP28支持的速率更高,可以达到25G,而SFP+一般只到10G。QSFP+在外观形态上与SFP+差异很大,两者不兼容。QSFP+应用在40G以上速率上。
DAC线缆是直连铜缆,这种铜缆的模块头是和线缆一体的,不需要再配置光模块。电缆的衰减大,一般只有1m,3m,5m长度的,但价格便宜,是短距离传输的最佳解决方案。
AOC叫做有源光缆,一根AOC线缆相当于两个光模块+光纤,也是一体的,这种线缆数据传输可靠性高,但价格贵。
几周前,ARM宣布推出第一批专用机器学习(ML)硬件。在“Project Trillium”项目中,该公司为智能手机等产品推出了专用的ML处理器,以及专门为加速对象检测(OD)用例而设计的第二款芯片。让我们更深入地研究下ProjectTrillium项目,以及该公司为不断增长的机器学习硬件市场制定的更广泛计划。值得注意的是,ARM的声明完全与推理硬件有关。其ML和OD处理器被设计成能有效地在消费级硬件上运行经过训练的机器学习任务,而不是在庞大的数据集上训练算法。首先,ARM将重点放在ML推理硬件两大市场:智能手机和互联网协议/监控摄像头。
新的机器学习处理器
尽管Project Trillium发布了新的专用机器学习硬件公告,但ARM仍然致力于在其CPU和GPU上支持这些类型的任务,并在其Cortex-A75和A55内核中实现了优化的点积产品功能。Trillium通过更加优化的硬件增强了这些功能,使机器学习任务能够以更高的性能和更低的功耗完成。但是ARM的ML处理器并不仅仅是一个加速——它本身就是一个处理器。
该处理器在15W的功率范围内拥有46 TOP/s的峰值吞吐量,使其适用于智能手机和更低功耗的产品。基于7纳米的实施,这给芯片提供了3 TOP/W的功率效率,同时,这对于节能产品开发商来说是一个很大的吸引力。
有趣的是,ARM的ML处理器与高通(Qualcomm)、华为(Huawei)和联发科技(MediaTek)采用一种不同的实现方式,所有这些处理器都重新设计了数字信号处理器(DSP),以帮助他们在高端处理器上运行机器学习任务。在MWC(全球行动通讯大会)的一次聊天中,ARM副总裁Jem Davies提到,收购DSP公司是进入这个硬件市场的一个选择,但最终,该公司决定为最常见的 *** 作进行专门优化的地面解决方案。
ARM的ML处理器专为8位整数运算和卷积神经网络(CNNs)设计。它专门用于小字节大小数据的大量乘法,这使得它在这些类型的任务中比通用DSP更快,更高效。CNN被广泛用于图像识别,可能是目前最常见的ML任务。所有这些读取和写入外部存储器通常会成为系统中的瓶颈,因此ARM也包含了一大块内部存储器以加速执行。这个内存池的大小是可变的,ARM希望根据用例为其合作伙伴提供一系列优化设计。
ARM的ML处理器专为8位整数运算和卷积神经网络而设计
ML处理器核心可以从单一核配置到16个核,以提高性能。每个组件包括优化的固定功能引擎和可编程层。这为开发人员提供了一定程度的灵活性,并确保处理器能够随着他们的发展而处理新的机器学习任务。该单元的控制由网络控制单元监控。
最后,处理器包含一个直接存储器访问(DMA)单元,以确保快速直接访问系统其他部分的内存。ML处理器可以作为自己的独立IP模块,具有ACE-Lite接口,可以将其并入SoC,或者作为SoC之外的固定模块运行,甚至可以与Armv82-A CPU(如Cortex-A75和A55)一起集成到DynamIQ集群中。集成到DynamIQ集群可能是一个非常强大的解决方案,可以为集群中的其他CPU或ML处理器提供低延迟数据访问并有效地完成任务调度。
适合所有的一切
去年ARM推出了Cortex-A75和A55 CPU处理器,以及高端的Mali-G72 GPU,但直到一年后才推出专用机器学习硬件。但是,ARM确实在其最新的硬件设备中对加速通用机器学习 *** 作进行了相当多的关注,而这仍然是该公司未来战略的一部分。
其最新的主流设备Mali-G52图形处理器将机器学习任务的性能提高了36倍,这要归功于Dot产品(Int8)的支持和每个通道每个通道的四次乘法累加 *** 作。Dot产品支持也出现在A75、A55和G72中。
即使有了新的OD和ML处理器,ARM仍在继续支持其最新CPU和GPU的加速机器学习任务。其即将推出的专用机器学习硬件的存在,使这些任务在适当的时候更加高效,但它是一个广泛的解决方案组合中的一部分,旨在满足其广泛的产品合作伙伴。
从单核到多核的CPU和GPU,再到可以扩展到16核的可选ML处理器(可在SoC核心集群内外使用),ARM可支持从简单的智能扬声器到自动车辆和数据中心,其需要更强大的硬件。当然,该公司也提供软件来处理这种可扩展性。
该公司的Compute Library仍然是处理公司CPU、GPU和现在ML硬件组件的机器学习任务的工具。该库为图像处理、计算机视觉、语音识别等提供低级的软件功能,所有这些功能都运行在最适用的硬件上。ARM甚至用其CMSIS-NN内核为Cortex-M微处理器支持嵌入式应用程序。与基线功能相比,CMSIS-NN提供高达54倍的吞吐量和52倍的能效。
硬件和软件实现的这种广泛的可能性需要一个灵活的软件库,这正是ARM的神经网络软件的切入点。该公司并不打算取代像TensorFlow或Caffe这样的流行框架,而是将这些框架转换成与任何特定产品的硬件相关的库。因此,如果您的手机没有ARM ML处理器,则该库仍将通过在CPU或GPU上运行任务来工作。隐藏在幕后的配置以简化开发是它的目标。
今天的机器学习
目前, ARM正专注于为机器学习领域的推理提供支持,使消费者能够在他们的设备上高效地运行复杂算法(尽管该公司并未排除参与硬件进行机器学习训练的可能性)。随着高速5G网络时代的到来,人们对隐私和安全的关注越来越多,ARM决定在边缘推动ML计算,而不是像谷歌那样聚焦在云上,这似乎是正确的选择。
最重要的是,ARM的机器学习能力并不仅限于旗舰产品。通过支持各种硬件类型和可扩展性选项,价格阶梯上下的智能手机可以受益,从低成本智能扬声器到昂贵服务器的各种产品都可以受益。甚至在ARM专用的ML硬件进入市场之前,利用它的Dot产品增强CPU和GPU的现代SoC,将会获得性能和能效的改进。
今年,我们可能不会在任何智能手机上看到ARM专用的ML和对象检测处理器,因为已经发布了大量SoC公告。相反,我们将不得不等到2019年,才能获得一些受益于Trillium项目及其相关硬件的第一批手机。三星发布了5G移动SOC芯片三星Exynos 2200处理器,这款芯片功能强大采用ARM v9架构,与AMD长期合作,这款芯片包含了AMD RDNA2图形架构的GPU功能芯片,支持硬件加速管线追踪,对手机 游戏 具有颠覆性。从这款芯片命名可以看出三星寓意非常明显。
从当前三星官方公布的消息我们了解到,这款芯片功能非常不错 ,将会成为旗舰产品配置,功耗和性能都是可圈可点。在移动高端芯片将占据重要位置,随着华为海思麒麟芯片量产困难暂离市场,目前移动端芯片除了高通骁龙8 Gen 1、苹果A5处理器、天玑9000芯片,三星Exynos 2200成为今年非常重要的一款芯片,采用最新Arm V9架构,配置了1 CortexX2+3 Cortex A710核+4 Cortex A510核 。不过这款芯片亮点就是配置了基于AMD RDNA2 架构图形处理器,业内首次硬件支持硬件加速,意味着 游戏 体验将非常出色。
不过这款三星芯片原本是1月11日对外发布,最终定于1月18日对外揭晓,从这块芯片的设计不难看出,这块芯片手机 游戏 流畅度的体验与桌游 游戏 体验不分上下。在5G网络方面,Exynos 2200芯片采用3GPP Release 16,支持6GHz以下频率以及毫米频率段,4G LTE和5GNR无线讯号,据悉下载速度高端10Gbps,安全方面对内存和存储元件都是有硬件级别加密,大家关心的数据安全将有一定的保障。
三星具有完整的手机生产链,未来将配上三星旗舰手机Galaxy S22系列,两亿像素镜头,按照每秒30张像素情况下,对应的单镜头,将会超过1亿700万像素,加上感光元件支持,支持8K或4K HDR影片稳定拍摄。
不过大家要想真正体验三星Exynos 2200芯片性能,恐怕只有在三星旗舰手机才能真正感受到,毕竟其他手机厂商如果使用恐怕很难完美发挥该芯片的硬件功能,手机 *** 作系统与硬件都要不断优化迭代。凭借加速光线追踪和可变速率的着色图像功能,当前很多手机几乎没有,相对这方面的技术研发存在缺口,相信未来手机发展局势将PC端的技术特征都会快速迁移到手机上,硬件加速将会在手机移动端充分发挥。
再看国内高端手机芯片,虽然国产芯片缺少高端EUV光刻机,14纳米依然存在困难距离当前4纳米工艺差距很大。华为麒麟海思芯片虽然暂时无法量产,余承东不会放弃智能手机业务,任正非更不会放弃麒麟海思芯片研发,相信国人在芯片大道上坚持自主研发,期待华为海思芯片能给大家带来重大好消息。
官方架构的cpu核心,现在大家比较熟悉的有
ARMv7架构的Cortex-A5,A7,A8,A9,A12,A15,
ARMv8架构的Cortex-A53,A57,A72。
目前最新的手机大多采用A53之后的公版架构,A53的性能接近A15,A57的性能是A15的15被,A72的性能是A15的35倍,性能越来越强。
较老的ARMv6架构的cpu称作ARM11系列,包括了ARM11MPCore处理器、ARM1176处理器、ARM1156处理器、ARM1136处理器。
1 ARM11 MPCore使用多核处理器结构,可实现从1个内核到4个内核的多核可扩展性,从而使具有单个宏的简单系统设计可以集成高达单个内核的4倍的性能。Cortex-A5处理器是ARM11MPCore的相关后续产品。
2 ARM1136处理器包含带媒体扩展的ARMv6 指令集、Thumb代码压缩技术以及可选的浮点协处理器。ARM1136是一个成熟的内核,作为一种应用处理器广泛部署在手机和消费类应用场合中。在采用 90G工艺时性能可达到600MHz以上,在面积为2平方毫米且采用65纳米工艺时可达到1GHz。
应用案例:高通MSM7225(HTC G8)、MSM7227(HTC G6、三星S5830、索尼爱立信X8等)、Tegra APX 2500、博通BCM2727(诺基亚N8)、博通BCM2763(诺基亚PureView 808)、 Telechip 8902(平板电脑)。
3 ARM1176处理器主要应用在智能手机、数字电视和电子阅读器中,在这些领域得到广泛部署,它可提供媒体和浏览器功能、安全计算环境,在低成本设计的情况下性能高达1GHz。
基于ARMv5的产品称作ARM9系列处理器系列,包括ARM926EJ-S、ARM946E-S和 ARM968E-S处理器。其中前两者主要针对嵌入式实时应用。
1 ARM926EJ-S基于ARMv5TE架构,作为入门级处理器,它支持各种 *** 作系统,如Linux、Windows CE和Symbian。ARM926EJ-S 处理器已授权于全球100多家硅片供应商,并不断在众多产品和应用中得到成功部署,应用广泛。
应用案例:TI OMAP 1710。诺基亚N73、诺基亚E65、三星SGH-i600等手机采用的都是该处理器,以及包括米尔科技的 MYS-SAM9X5 系列工控开发板。
安卓支持3类处理器(CPU):ARM、Intel和MIPS。其中ARM无疑被使用得最为广泛。Intel因为普及于台式机和服务器而被人们所熟知 ,然而对移动行业影响力相对较小。MIPS在32位和64位嵌入式领域中历史悠久,获得了不少的成功,可目前Android的采用率在三者中最低。总之,ARM现在是赢家,而Intel是ARM的最强对手。 那么ARM处理器和Intel处理器到底有何区别?为什么ARM如此受欢迎?你的智能手 机或平板电脑用的是什么处理器到底重要不重要?
处理器(CPU)
中央处理器(CPU)是你智能设备的大脑。它的任务是通过执行一系列指令来驱动你的设备,包括显示屏,触摸屏,调制解调器等, 让一坨塑料金属混合物变成闪亮的智能手机或者平板电脑。移动设备非常复杂,其中的处理器需要执行数百万行指令才能完成人们希望这些设备去做的事。速度和功耗对处理器来说至关重要。速度影响用户体验,功耗影响电池寿命。完美的移动设备必须有好性能以及低功耗。
这就是为什么选择什么样的处理器很重要。一个超级耗电,反应迟钝的处理器会很快吸干你的电池,而一个考究的,高效的处理器 给你带来高性能和长久的电池寿命。总体而言,ARM和Intel处理器的第一个区别是,前者使用精简指令集(RISC),而后者使用复杂指令集(CISC)。通俗而言,精简指令集规模较小,更接近原子 *** 作,而复杂指令集规模较大,更加复杂。 所谓原子 *** 作,是指每条指令的工作大都可以由处理器在一个 *** 作内完成,例如对两个寄存器做加法。复杂指令集的指令描述某个意图,但是处理器必须执行3或4个更简单的指令来实现这个意图。例如,可以命令一个复杂指令集处理器对2个数求和,并把结果存入主内存中。为了完成这个命令,处理器首先从地址1中取得第一个数( *** 作1),然后从地址2中取得另一个数( *** 作2),然后求和( *** 作3),等等。
所有的现代处理器都使用一种所谓微指令的概念,这是一个处理器内部的指令集合,用来描述处理器可以做的原子 *** 作。复杂指令 集处理器实际上执行了3条微指令。对精简指令集处理器而言,其指令跟其微指令十分接近。而复杂指令集处理器的指令需要先被转换成一些更精简的微指令(就像前面的复杂指令集处理器做加法的例子中那样)。也就是说精简指令集处理器中的解码器(负责告诉处理器到底要干些什么的东东)要简单得多,而简洁意味着高效和低功耗。
制造工艺
ARM和Intel处理器的另外一个主要区别是ARM从来只是设计低功耗处理器。其宗旨是设计低功耗处理器,这是他们的强项。而Intel 的强项是设计超高性能的台式机和服务器处理器,并且的确做的不错。Intel是台式机的服务器行业的老大。过去的20年里我所有的PC,笔记本和服务器(除了一个外)用的都是Intel的处理器。然而进入移动行业时,Intel依然使用和台式机同样的复杂指令集架构,试图将其硬塞入给移动设备使用的体积较小的处理器中。
Intel i7处理器平均发热率为45瓦。基于ARM的片上系统(其中包括图形处理器)的发热率最大瞬间峰值大约是3瓦,约为Intel i7 处理器的1/15。Intel现如今是个巨头,雇佣了大量的聪明人。其最新的Atom系列处理器采用了跟ARM处理器类似的温度控制设计,为此Intel必须使用最新的22纳米制造工艺。一般而言,制造工艺的纳米数越小,能量的使用效率越高。ARM处理器使用更低的制造工艺,拥有类似的温控效果。比如,高通晓龙805处理器使用28纳米制造工艺。
64位
对于64位计算,ARM和Intel也有一些显著区别。你知不知道,Intel并没有开发64位版本的x86指令集。这个64位的指令集,名为 x86-64(有时简称为x64),实际上是AMD设计开发的。故事是这样的:Intel想搞64位计算,它知道如果从自己的32位 x86架构进化出的64位架构的话,新架构效率会很低。于是它搞了一个新64位处理器项目名为IA64,由此制造出了Itanium系列处理器。同时AMD知道自己造不出能与IA64兼容的处理器,于是它把x86扩展一下,加入了64位寻址和64位寄存器。最终出来的架构,人称AMD64,成为了64位版本的x86处理器的标准。
IA64项目并不算得上成功,现如今基本被放弃了。Intel最终采用了AMD64。Intel当前给出的移动方案,是采用了AMD开发的64位指 令集(有些许差别)的64位处理器。
ARM的故事很不一样:看到移动设备对64位计算的需求后,ARM于2011年发布了ARMv8 64位架构,这是为了下一代ARM指令集架构工作 若干年后的结晶。为了基于原有的原则和指令集,开发一个简明的64位架构,ARMv8使用了两种执行模式,AArch32和AArch64。
顾名思义,一个运行32位代码,一个运行64位代码。 ARM设计的巧妙之处,是处理器在运行中可以无缝地在两种模式间切换。这意味 着64位指令的解码器是全新设计的,不用兼顾32位指令,而处理器依然可以向后兼容。
异构计算
ARM的bigLITTLE架构是一项Intel一时无法复制的创新。在bigLITTLE架构里,处理器可以是不同类型的。传统的双核或者四核处理器中包含同样的2个核或者4个核。一个双核Atom处理器中有两个一模一样的核,提供一样的性能,拥有相同的功耗。ARM通过bigLITTLE向移动设备推出了异构计算。这意味着处理器中的核可以有不同的性能和功耗。当设备正常运行时,使用低功耗核,而当你运行一款复杂的游戏是,使用的是高性能的核。
这是怎么做到的呢?设计处理器的时候,要考虑大量的技术设计的采用与否,这些技术设计决定了处理器的性能以及功耗。在一条 指令被解码并准备执行时,Intel和ARM的处理器都使用流水线。就是说解码的过程是并行的。第一步从内存中读取指令,第二步检查和解码指令,第三步执行指令,周而复始。流水线的好处在于,当前指令在第二步的时候,下一条指令已经处于第一步。当前指令在第三步中执行的时候,下一条指令正处于第二步,而下下条指令处于第一步中,如此循环。
为了更快地执行指令,这些流水线可以被设计成允许指令们不按照程序的顺序被执行(乱序执行)。一些巧妙的逻辑结构可以判断 下一条指令是否依赖于当前的指令执行的结果。Intel和ARM都提供乱序执行逻辑结构,可想而知,这种结构十分的复杂。复杂意味着更多的功耗。Intel处理器由设计者们选择是否加入乱序逻辑结构。异构计算则没有这方便的问题。ARM Cortex-A53采用顺序执行 ,因此功耗低一些。而ARM Cortex-A57使用乱序执行,所以更快但更耗电。采用bigLITTLE架构的处理器可以同时拥有Cortex-A53 和Cortex-A57核,根据具体的需要决定如何使用这些核。在后台同步邮件的时候,不需要高速的乱序执行,仅在玩复杂游戏的时候需要。在合适的时间使用合适的核。
原则上,处理器中复杂逻辑结构越多性能越高,越少则效率越高, 指令流水线只是其中之一,包括浮点运算单元,单指令多数据逻 辑(SIMD)(比如ARM的NEON和Intel的SSE/MMX),以及一级缓存二级缓存。每种Atom片上系统,Intel仅提供一种方案,而ARM以及芯片合作伙伴提供的芯片则有多种方案可以配置。
兼容性
ARM目前是移动处理器的老大。ARM的合作伙伴们基于ARM的设计向移动和嵌入式市场的出货量已经达500亿片。对于安卓,ARM已然成 为标准,这对Intel和MIPS而言是个问题。尽管安卓的主要编程语言是Java,开发者也可以使用现有的代码(比如C或者C++)去开发应用。这些固定平台的应用通常都编译成ARM处理器的程序,不全都会编译成Intel或者MIPS处理器的程序。为了解决这个问题,Intel和MIPS要使用特殊的转换软件把ARM的指令转换成他们处理器使用的指令。这当然是会降低性能的。目前MIPS和Intel声称兼容Play Store里大约90%的应用。对于最受欢迎的150个应用,兼容率是100%。一方面兼容率很高,另一方面表明ARM的主导地位,使得其他的处理器设计者需要提供一个兼容层。
总结
制造处理器是一项复杂的业务。ARM,Intel和MIPS都在不懈努力地向移动设备提供最好的技术,而很明显ARM是老大。拥有着低功耗 ,简明的64位设计,异构计算,以及作为移动计算的标准,看来ARM在一段时间内必能保持其老大的地位。
机器之心报道
机器之心编辑部
「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。
4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:
如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。
「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。
英伟达也要做 CPU 了
Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。
「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。
Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。
英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。
据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。
基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。
美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。
GPU+CPU+DPU,三管齐下
「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」
除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。
黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。
对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」
最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。
英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。
Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。
与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。
不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。
英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。
「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。
英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。
1月上旬,新元科技股价暴涨,其布局的云游戏服务器业务受到关注。记者来到新元科技,与高管进行面对面交流,探究作为轮胎橡胶设备厂商的新元科技,如何布局智能行业机器人,打造智慧工厂、智慧城市另外,记者与新元科技高管就云游戏领域的ARM型服务器进行了沟通。
新元科技高管介绍,公司炼胶设备主业仍将继续发展,清投智能的智慧工厂业务主要为各种智能行业机器人,应用于电站、高铁、戒毒所等固定区域的巡视巡检。另外,公司通过子公司邦威思创布局的ARM颗粒计算云游戏服务器设备2019年开始推广。
(右起分别为邦威思创总经理陈尧、新元科技副总经理张亮)
“职业涉险”机器人
据了解,新元科技主业为智能化输送配料系统,主要产品包括上辅机系统、小料配料称量系统、气力输送系统,用于轮胎橡胶行业的炼胶环节。2017年控股清投智能后,主营业务拓展至大屏幕智能显示控制系统和智能装备业务。
历史财务数据显示,在收购清投智能后,智能制造业务利润不断提高。2017年,新元科技与清投智能净利润分别为208900万元与95284万元,到了2018年,两者净利润分别为700346万元与523930万元,2019年上半年,清投智能净利润已超过母公司,两者分别为253290万元与306886万元。
关于新元科技的发展方向,公司高管介绍,公司整体围绕智能制造展开,发展战略为两条主线:一条是智慧工厂,第二条主线是工业智能机器人。
据了解,智能装备制造与智能机器人项目均由清投智能承载,“清投智能主营业务为大屏幕显示控制系统和智能装备的研发、生产和销售;主要产品包括液晶项目、DLP项目、智能滑雪机、智能qd柜、智能机器人等。”新元科技在财报中称。
新元科技专门介绍了智慧工厂业务的“亮点”——“宝”系列智能巡检机器人,包括应用于电站巡检的“电宝”、应用于安防巡逻的“安宝”、运维辅助机器人“维宝”等。
(清投智能“宝”系列机器人展示图)
(清投智能“宝”系列机器人产品线归类)
新元科技副总经理张亮介绍,“宝”系列机器人绝大部分原材料来自外采,清投智能的优势在于数据采回后的智能化分析处理,同时,在机器人制造时不断整合红外雷达壁障、AI图像识别处理等功能,整合设计也是优势之一。
在市场竞争方面,张亮告诉记者,除了清投智能之外,做巡视巡检机器人的企业以国家电网下属企业为主,向外延伸的很少,公司向外延伸已取得一定成果,向化工厂、煤矿输煤廊桥、中储粮粮食储备库、看守所等应用场景延伸出的销量大于电网销量。
(电宝应用场景)
“现在‘宝’系列机器人的成本较人工成本优势并不突出,但考虑社保、伤亡事故处理、后勤保障等隐性成本,在危险领域,机器人的成本还是有优势的,现在销量增长还可以,但整体的规模还不是特别大。”张亮称。
财务报告显示,截至2018年末,机器人项目营业收入为20011万元,毛利率为3744%。
云游戏服务器进展如何
除上述两条主线外,新元科技还在布局服务器相关业务。据了解,2019年中,新元科技并购邦威思创51%股份,业务拓展至智能视频通讯及专用领域新型异构服务器和ARM颗粒云计算服务器等领域,而ARM服务器在云游戏领域存在应用空间。
(陈尧介绍基于高性能ARM颗粒计算的云游戏服务器的技术特点)
邦威思创总经理陈尧认为,基于高性能ARM颗粒计算的云游戏服务器对比传统服务器有较大优势,这主要因云游戏与ARM计算单元的良好兼容性及其颗粒化计算特点决定,云游戏的每个用户都是独占性用户,需要独立的计算单元或虚拟机进行单独运算,ARM颗粒计算的云游戏服务器是由大量ARM+GPU颗粒计算单元构成,虽然单体ARM颗粒计算单元的运算能力不及传统服务器,但因其并行了众多独立计算单元可供调度,非常适合云游戏等业务的计算处理。
“另外,基于高性能ARM颗粒计算的云游戏服务器的成本方面较传统服务器有非常明显的优势,尤其是低功耗的特点,可以较大地降低大规模的云游戏运营商的运营成本。”陈尧告诉记者。
关于ARM服务器的市场,陈尧称,该业务2019年开始推广,目前量还没有起来。
某专业人士对记者表示,现在云计算和边缘计算已经实实在在产生需求,在5G商用的推动下,相关市场应用预计会越来越大,目前谷歌、亚马逊、微软、英伟达、华为等厂家都已相继发布云游戏产品。
IDC在报告中称,当前以5G、人工智能、物联网为代表的新兴技术正在推动人类进入智能社会,加速了智能化应用爆发性发展,自动驾驶、云游戏、VR/AR等智能化应用的兴起,使得传统单一的X86架构产品很难满足多样化的计算场景需求。
除ARM云游戏服务器外,陈尧还介绍了公司的FCPC协同计算平台系列服务器,较Intel等通用服务器,邦威思创的FCPC产品为利用FPGA+ARM/CPU的异构服务器,可帮助下游应用厂商快速打造各种专业的个性化产品。比如:图像处理机器人,传统处理器方案功耗高、空间大、成本高,应用FCPC方案则可以重点搭载AR引擎、图像分析处理等模块,会更有优势。
(陈尧介绍新型FCPC异构服务器产品的技术特点)
市场推广方面,陈尧表示,市场很大,客户很有兴趣,但还没形成规模,陈尧补充道,“相关产品具有良好的客户粘性,使用的客户会很稳定,会一直使用我们的产品和服务。”
上述服务器行业人士表示,微软和阿里也在搭建FPGA云服务器,都看好FPGA计算能力强、低功耗、小体积的特点,不过,FPGA研发横跨软硬件,需要多方面协调共进,研发难度高。同时,FPGA使用起来不如通用服务器简易,出现问题以后的维养也比较麻烦,能否达到邦威思创的预期市场效果,还需要时间检验。
值得注意的是,截至2019年半年报,新元科技并未单独列示服务器产品相关财务情况,故服务器收入及利润占比尚无从得知。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)