当前,为推进IT支撑系统集约化建设和运营,进一步发挥集中化能力优势,IT云成为运营商IT支撑系统建设的基础架构。但在IT云资源池部署过程中,服务器技术面临多个新挑战,主要体现在以下3个方面。
在性能方面,人工智能(AI)应用快速扩张,要求IT云采用高性能GPU服务器。AI已在电信业网络覆盖优化、批量投诉定界、异常检测/诊断、业务识别、用户定位等场景规模化应用。AI应用需求的大量出现,要求数据中心部署的服务器具有更好的计算效能、吞吐能力和延迟性能,以传统通用x86服务器为核心的计算平台显得力不从心,GPU服务器因此登上运营商IT建设的历史舞台。
在效率成本方面,IT云部署通用服务器存在弊端,催生定制化整机柜服务器应用需求。在IT云建设过程中,由于业务需求增长快速,IT云资源池扩容压力较大,云资源池中的服务器数量快速递增,上线效率亟需提高。同时,传统通用服务器部署模式周期长、部署密度低的劣势,给数据中心空间、电力、建设成本和高效维护管理都带来了较大的挑战。整机柜服务器成为IT云建设的另一可选方案。
在节能方面,AI等高密度应用场景的快速发展,驱动液冷服务器成为热点。随着AI高密度业务应用的发展,未来数据中心服务器功率将从3kW~5kW向20kW甚至100kW以上规模发展,传统的风冷式服务器制冷系统解决方案已经无法满足制冷需求,液冷服务器成为AI应用场景下的有效解决方案。
GPU服务器技术发展态势及在电信业的应用
GPU服务器技术发展态势
GPU服务器是单指令、多数据处理架构,通过与CPU协同进行工作。从CPU和GPU之间的互联架构进行划分,GPU服务器又可分为基于传统PCIe架构的GPU服务器和基于NVLink架构的GPU服务器两类。GPU服务器具有通用性强、生态系统完善的显著优势,因此牢牢占据了AI基础架构市场的主导地位,国内外主流厂商均推出不同规格的GPU服务器。
GPU服务器在运营商IT云建设中的应用
当前,电信业开始推动GPU服务器在IT云资源池中的应用,省公司现网中已经部署了部分GPU服务器。同时,考虑到GPU成本较高,集团公司层面通过建设统一AI平台,集中化部署一批GPU服务器,形成AI资源优化配置。从技术选型来看,目前运营商IT云资源池采用英伟达、英特尔等厂商相关产品居多。
GPU服务器在IT云应用中取得了良好的效果。在现网部署的GPU服务器中,与训练和推理相关的深度学习应用占主要部分,占比超过70%,支撑的业务包括网络覆盖智能优化、用户智能定位、智能营销、智能稽核等,这些智能应用减少了人工投入成本,提升了工作效率。以智能稽核为例,以往无纸化业务单据的人工稽核平均耗时约48秒/单,而AI稽核平均耗时仅约5秒/单,稽核效率提升达 90%。同时,无纸化业务单据人工稽核成本约15元/单,采用GPU进行AI稽核成本约0048元/单,稽核成本降低达968%。
整机柜服务器发展态势及在电信业的应用
整机柜服务器技术发展态势
整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理6个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,使整机柜服务器仅需配置传统机柜式服务器10%的电源数量就可满足供电需要,电源效率可以提升10%以上,且单台服务器的能耗可降低5%。
整机柜服务器在运营商IT云建设中的应用
国内运营商在IT云建设中已经推进了整机柜服务器部署,经过实际应用检验,在如下方面优势明显。
一是工厂预制,交付工时大幅缩短。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从1台上升到几十台,交付效率大大提升。以一次性交付1500台服务器为例,交付工作量可减少170~210人天,按每天配10人计算,现场交付时间可节省约17~21天。
二是资源池化带来部件数量降低,故障率大幅下降。整机柜服务器通过将供电、制冷等部件资源池化,大幅减少了部件数量,带来故障率的大幅降低。图1比较了32节点整机柜服务器与传统1U、2U服务器机型各自的电源部件数量及在一年内的月度故障率情况。由于32节点整机柜服务器含10个电源部件,而32台1U通用服务器的电源部件为64个,相较而言,整机柜电源部件数减少844%。由于电源部件数量的降低,32节点整机柜服务器相对于32台1U通用服务器的月度故障率也大幅缩减。
三是运维效率提升60%以上。整机柜服务器在工厂预制机柜布线,网络线缆在工厂经过预处理,线缆长度精确匹配,理线简洁,接线方式统一规范,配合运维标签,在运维中可以更方便简洁地对节点实施维护 *** 作,有效降低运维误 *** 作,提升运维效率60%以上,并大幅减少发生故障后的故障恢复时间。
液冷服务器技术发展态势及在电信业的应用
液冷服务器技术发展态势
液冷服务器技术也称为服务器芯片液体冷却技术,采用特种或经特殊处理的液体,直接或近距离间接换热冷却芯片或者IT整体设备,具体包括冷板式冷却、浸没式冷却和喷淋式冷却3种形态。液冷服务器可以针对CPU热岛精确定点冷却,精确控制制冷分配,能真正将高密度部署带到前所未有的更高层级(例如20kW~100kW高密度数据中心),是数据中心节能技术的发展方向之一,3种液冷技术对比如表1所示。
液冷服务器在运营商IT建设中的应用
液冷服务器技术目前在我国仍处于应用初期,产业链尚不完备、设备采购成本偏高、采购渠道少、电子元器件的兼容性低、液冷服务器专用冷却液成本高等问题是液冷服务器尚未大规模推广的重要原因。从液冷服务器在运营商数据中心领域的具体应用案例来看,运营商在IT云资源池规划和建设过程中,通常会对液冷服务器的发展现状、技术成熟度等进行分析论证。
考虑到目前液冷服务器规模化应用尚处于起步阶段,需要3~5年的引入期,因此暂时未在IT云资源池建设中进行大规模落地部署,但在部分地区有小规模应用,如中国移动南方基地数据中心已经开展液冷服务器试点应用,中国联通研究院也在开展边缘数据中心服务器喷淋式液冷系统的开发。未来,随着IT云建设规模、建设密度的继续攀升,以及液冷产业生态体系的逐步成熟,液冷服务器在IT云建设中将有更大的应用空间。
总体来看,运营商IT云资源池建设对服务器计算性能、延迟、吞吐、制冷、定制化、分布式部署等方面都提出了更高要求。未来,GPU服务器、定制化整机柜服务器、液冷服务器等新兴服务器技术将快速迭代,为运营商数据中心服务器技术的发展和演进带来新的思路和路径。
在选择服务器方面还是要看具体需求的,不同的企业或个人对服务器的要求都是不一样的,如果预算有限的话,那只能选择比较便宜的服务器。对于那些注重网络安全、数据存储的大型企业,那就需要买性能稳定、安全性高的服务器了,哪怕价格贵一点。当然,从性价比的角度我觉得还是最好选择大厂的服务器,这样售后得以保障,也不会出现太大的质量问题。思腾合力你可以去了解看看,它家是英伟达官方授权的经销商,同时也拥有自主品牌GPU服务器,售后方面做的都挺好的,3年质保,上 门服务,性价比还是蛮高的,给你做个对比。选择GPU服务器时首先要考虑业务需求来选择适合的GPU型号。在HPC高性能计算中还需要根据精度来选择,比如有的高性能计算需要双精度,这时如果使用P40或者P4就不合适,只能使用V100或者P100;同时也会对显存容量有要求,比如石油或石化勘探类的计算应用对显存要求比较高;还有些对总线标准有要求,因此选择GPU型号要先看业务需求。
GPU服务器人工智能领域的应用也比较多。在教学场景中,对GPU虚拟化的要求比较高。根据课堂人数,一个老师可能需要将GPU服务器虚拟出30甚至60个虚拟GPU,因此批量Training对GPU要求比较高,通常用V100做GPU的训练。模型训练完之后需要进行推理,因此推理一般会使用P4或者T4,少部分情况也会用V100。
综上所述,选择服务器时不仅需要考虑业务需求,还要考虑性能指标,比如精度、显存类型、显存容量以及功耗等,同时也会有一些服务器是需要水冷、降噪或者对温度、移动性等等方面有特殊的要求,就需要特殊定制的服务器。
欢迎了解更多:网页链接
RTX 2060(6 GB):你想在业余时间探索深度学习。RTX 2070或2080(8 GB):你在认真研究深度学习,但GPU预算不多。8 GB的VRAM适用于大多数模型。
RTX 2080 Ti(11 GB):你在认真研究深度学习并且您的GPU预算中等。RTX 2080 Ti比RTX 2080快大约40%。
Titan RTX和Quadro RTX 6000(24 GB):你正在广泛使用现代模型,但却没有足够买下RTX 8000的预算。
Quadro RTX 8000(48 GB):你要么是想投资未来,要么是在研究2020年最新最酷炫的模型。
现在都是选择呆猫会提供GPU服务器,普通电脑都可以轻松运行高算力的电脑服务。浪潮是一家中国的服务器制造商,提供各种类型的服务器产品。以下是浪潮服务器的一些主要分类:
1 塔式服务器(Tower Server):塔式服务器适用于中小企业和分支机构等小型办公环境,具有较低的噪音和较小的空间占用。浪潮的塔式服务器产品线包括 T系列。
2 机架式服务器(Rack Server):机架式服务器适用于数据中心和大型企业,设计为与标准机架兼容,便于集成和管理。浪潮的机架式服务器产品线包括 R系列。
3 刀片式服务器(Blade Server):刀片式服务器是一种高密度、可扩展的服务器解决方案,适合大型数据中心和云计算环境。浪潮的刀片式服务器产品线包括 H系列。
4 高性能计算服务器(High-Performance Computing Server):高性能计算服务器专为高性能计算(HPC)任务和人工智能(AI)应用设计,提供最高可用性和性能。浪潮的高性能计算服务器产品线包括 X系列。
5 分布式存储服务器(Distributed Storage Server):用于大数据存储和处理的服务器,通过分布式存储架构提供高可用性、可扩展性和容错性。如浪潮翼龙存储服务器等。
6 GPU服务器(GPU Server):适用于图形处理、深度学习和其他需要高性能并行计算能力的场景。浪潮的GPU服务器产品线包括 G系列。
此外,浪潮还提供定制服务器解决方案,以满足特定行业或应用场景的需求。以上是浪潮服务器的几种主要类型,实际选择时需要根据应用场景、性能需求和预算等因素进行综合考虑。GPU服务器和普通服务器的区别在于GPU服务器具有GPU(图形处理器)加速,而普通服务器通常只有CPU(中央处理器)。以下是几个区分GPU服务器和普通服务器的因素:
硬件配置:GPU服务器通常具有多个高端GPU卡,而普通服务器则通常只有一个或几个CPU。此外,GPU服务器通常具有更高的内存容量和更快的存储设备,以便处理和存储大量数据。
应用场景:GPU服务器通常用于计算密集型的任务,例如深度学习、机器学习、数据挖掘和科学计算等需要大量矩阵运算和并行计算的应用。而普通服务器则更适用于处理数据传输、存储和其他一般性任务。
性能:由于GPU服务器具有GPU加速,因此其性能通常比普通服务器更高,尤其是在处理大量数据和进行大规模计算时。GPU服务器可以利用GPU的并行计算能力,加速许多复杂的计算任务。
价格:由于GPU服务器的配置和性能比普通服务器更高,因此其价格也通常更高。GPU服务器可能需要更多的电力和散热,因此它们也可能更昂贵。因此,在购买GPU服务器之前,需要考虑你的预算和实际需求。
总的来说,GPU服务器和普通服务器有很多不同之处,主要是在硬件配置、应用场景、性能和价格等方面。你需要根据自己的需求和预算,选择最适合的服务器类型。
资讯 咨询机构IDC近日发布的《2017年中国AI基础设施市场跟踪报告》显示,2017年,中国GPU服务器市场迎来爆发式增长,市场规模为5.65亿美元(约合35亿元人民币),同比增长230.7%,约占中国X86服务器市场的6%。
该机构预测,未来五年GPU服务器市场仍将保持高速增长,2017~2022年复合增长率将超过43%。到2022年,GPU服务器的市场规模有望达到中国X86服务器市场整体规模的16%,将直接改变整个服务器市场的格局。
从厂商市场占有率来看,浪潮处于领先位置,曙光和新华三紧随其后。从行业分布来看,互联网是GPU服务器的主要用户群体,提供AIaaS的公有云服务提供商和AI解决方案提供商有望成为未来驱动市场增长的新动力。从市场趋势来看,2017年GPU服务器市场不再是一个小众的市场,几乎所有互联网用户和大量的AI初创公司都开始采购GPU服务器搭建自己的AI平台,主流的公有云厂商也都先后推出自己的AIaaS服务。
从AI生态系统建设来看,Nvidia具有明显优势,其Tesla系列产品在AI基础设施市场占据主导地位,尤其在线下训练场景中几乎垄断了市场。从其产品分布来看,P40和P100占据超过70%的市场份额,分别面向推理和训练工作负载,P4在2017年也取得了快速增长,主要面向1U紧凑型推理计算平台。
该机构中国服务器市场高级研究经理刘旭涛认为:“2017年是中国AI元年,也是AI生态和市场迅速发展的一年。在国家政策和资本的共同推动下,大量AI初创企业涌现、行业应用迅速落地。AI市场的火热推动了以GPU服务器为主的AI基础设施市场取得了爆发式增长,未来伴随AI市场的发展和繁荣,AI基础设施市场仍将保持快速增长。”他认为,目前,AI的应用以线下训练为主,使用者主要是拥有海量数据的用户群体,基础设施以GPU为主。未来,在线推理的应用将更加广泛,除了GPU,FPGA、ASIC等加速计算技术,甚至基于ARM架构的一些新的专用AI芯片都会迎来发展机遇。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)