深度学习是需要配置专门的GPU服务器的:
深度学习的电脑配置要求:
1、数据存储要求
在一些深度学习案例中,数据存储会成为明显的瓶颈。做深度学习首先需要一个好的存储系统,将历史资料保存起来。
主要任务:历史数据存储,如:文字、图像、声音、视频、数据库等。
数据容量:提供足够高的存储能力。
读写带宽:多硬盘并行读写架构提高数据读写带宽。
接口:高带宽,同时延迟低。
传统解决方式:专门的存储服务器,借助万兆端口访问。
缺点:带宽不高,对深度学习的数据读取过程时间长(延迟大,两台机器之间数据交换),成本还巨高。
2、CPU要求
当你在GPU上跑深度网络时,CPU进行的计算很少,但是CPU仍然需要处理以下事情:
(1)数据从存储系统调入到内存的解压计算。
(2)GPU计算前的数据预处理。
(3)在代码中写入并读取变量,执行指令如函数调用,创建小批量数据,启动到GPU的数据传输。
(4)GPU多卡并行计算前,每个核负责一块卡的所需要的数据并行切分处理和控制。
(5)增值几个变量、评估几个布尔表达式、在GPU或在编程里面调用几个函数——所有这些会取决于CPU核的频率,此时唯有提升CPU频率。
传统解决方式:CPU规格很随意,核数和频率没有任何要求。
3、GPU要求
如果你正在构建或升级你的深度学习系统,你最关心的应该也是GPU。GPU正是深度学习应用的核心要素——计算性能提升上,收获巨大。
主要任务:承担深度学习的数据建模计算、运行复杂算法。
传统架构:提供1~8块GPU。
4、内存要求
至少要和你的GPU显存存大小相同的内存。当然你也能用更小的内存工作,但是,你或许需要一步步转移数据。总而言之,如果钱够而且需要做很多预处理,就不必在内存瓶颈上兜转,浪费时间。
主要任务:存放预处理的数据,待GPU读取处理,中间结果存放。
深度学习需要强大的电脑算力,因此对电脑的硬件配置自然是超高的,那么现在普通的高算力电脑需要高配置硬件。
人工智能服务器应该需要无与伦比的浮点运算能力,最起码也要配置两个万兆网口、10个SATA端口、双路CPU插槽和IPMI20远程管理模块,集高性能计算、大容量存储和先进性管理于一体,与传统服务器相比性能更强,可管理性更高。还有,人工智能服务器的算力要求也比较高,听说十次方算力平台就提供这种超算服务,还是免费使用的,有兴趣也可以去咨询下。找到一篇文章
这么说吧:1997年下赢国际象棋冠军卡斯帕罗夫的“深蓝”是一台超级计算机,而即将和李世石对决围棋的AlphaGo却是谷歌旗下公司DeepMind开发出来的人工智能程序。强行把这二者拉在一起比较……少年我们还是来谈谈世界和平吧。不过AlphaGo作为程序,最终还是要运转在计算机上才能去和人类比个高下的。所以把问题换成“即将和人类下围棋的那台计算机到底比深蓝厉害多少倍?”
我们还是能够简单计算一下给出大致答案的。毕竟在衡量计算机性能方面,我们已经有了一个相当统一的标准:每秒浮点运算次数,为了方便起见,我们下面一律称之为“FLOPS”。
千万别被“浮点运算”这个计算机术语吓跑,说人话的话,浮点运算其实就是带小数的四则运算,比如12加21就是一个典型的浮点运算。如果你的小学数学老师不是美国人的话,那么我们估计这会儿你早就心算出结果是33了。不过这对计算机来说,这个问题没那么简单。
我们知道,计算机是以0和1构成的二进制数字进行运算的,比如在基础的二进制里,1就是1,2就变成了10,3是11,4是100……这种运算方式让我们可以用最简单的电路元件组装出稳定有效的计算机器,但它也带来一个问题:计算机能够处理的数字只有整数。如果想不借助任何其他的数学方法,用0和1表示一个01……少年我们真的还是来谈谈世界和平吧。
解决这个问题的办法很简单:01可以看成是1除以10的结果,我们想让计算机计算一个带小数点的数字,只要告诉CPU这是一个被1后面加了多少个0整除的整数就行了。不过这样一来,计算机在处理小数点的时候,就多了好几个运算步骤。所以进行浮点运算的速度也就成了衡量计算机性能的标准。
拿在国际象棋上击败人类的深蓝来说,它的计算能力是1138 GFLOPS,意思就是深蓝能在每秒钟里计算1138亿次带小数的加减乘除。而在二战期间帮助美国设计制造原子d的第一台通用计算机ENIAC,它的性能只有300 FLOP。
在今天看来,深蓝的性能怎么样?三个字:弱爆了。单就PC中使用的CPU来说,早在2006年,英特尔推出的第一代酷睿2就已经稳稳地超过了深蓝。这还没有算上显卡里GPU带来的效果加成,今天最普通的集成显卡,其性能也已经超过了700 GFLOPS。如果真要在性能上比个高下,深蓝这种上个世纪的超级计算机,就算组团也不一定能单挑你面前的这台笔记本电脑。
那么今天的超级计算机已经达到了什么样的性能水平?我们国家的天河二号是世界最快的超级计算机,它浮点运算能力已经达到了3386 PFLOPS。也就是说,深蓝要在性能上增长到自身的30万倍,才能和天河二号相提并论。
不过对于深蓝来说,这样的比较实在是太不公平。因为即便在当年,深蓝也不是速度最快的超级计算机。相比之下,只有通过谷歌AlphaGo使用的电脑,我们才能比较出这20年里,我们的计算机到底经过了怎样惊人的发展。
根据谷歌团队发表在《自然》杂志上的论文, AlphaGo最初是在谷歌的一台计算机上“训练”人工智能下围棋的。按照论文里的描述,谷歌利用这台计算机,让AlphaGo的围棋水平提升到了与欧洲冠军樊麾接近的地步。不过论文除了提到这台计算机装有48个CPU和8个GPU之外,对计算机的性能连一个数字都没有提到。好在AlphaGo是在云计算平台上运行的,我们只要找来竞争对手的计算机数据比较,就可以了解到大概了。
比如说去年12月,阿里云对外开放的高性能计算服务。按照阿里云的描述,这些计算机的单机浮点运算能力是11 TFLOPS,而且同样可以用来训练人工智能自行学习。如果谷歌的计算机性能与阿里云接近的话,那么AlphaGo所驱动的硬件,性能至少是深蓝的1000倍。
但故事到这里还没有完,AlphaGo并非只有“单机版”一个版本。为了达到更高的运算能力,谷歌还把AlphaGo接入到了1202个CPU组成的网络之中。联网后的AlphaGo算力猛增24倍,一下子从“单机版”不到职业二段的水平,跳跃到了职业五段上下的水准。
所以AlphaGo比深蓝厉害多少倍?估计这会你已经得出答案了:25万倍。从这个角度,我们也能看出来,围棋究竟是怎样复杂的一种智力游戏,以至于计算机的性能需要20年的提高,才能在象棋上战胜人类后,再在围棋棋盘面前,坐到人类顶尖选手的对面。不过归根揭底,AlphaGo最重要的成就并不是采用了性能多么优秀的电脑,而是第一次让程序可以以人类的方式思考、学习和提高。所以过几天的比赛,无论谁输谁赢,我们见证的都是一个崭新纪元的开端。
当然别忘了关注新浪科技,我们到时候会在最前方,带你迎接这个新纪元的第一道曙光。GPU服务器,就是有专用显卡的服务器,一般多用于超级算力,图形计算,或者说IPFS挖矿等,一般来说,GPU服务器多为4U的服务器。根据GPU的数量不同,该服务器的功率也是不一样的。
一块GPU卡一般耗电350W,一般4U的服务器最大可以支持8块GPU卡,通常业内多称之为8卡GPU服务器,当然也有4卡,6卡的。如果装满8卡GPU,那么其耗电在2800瓦,差不多就是 13A电力。一般常规的机房机柜标准配电是13A起步 (也有按10A起步的)
如果是放在13A电力的机柜里,那么一台4U 8卡的GPU服务器就得占用一个机柜,所以这个时候,如果客户机器数量比较多的话,就租用高电机柜比较合算,不然一台占一个机柜,机柜空间就大大的浪费了。
一般来说,不计算用电的情况下,一个4U的机柜的机柜费是根据 一个机柜的总成本除8得出来的(因为一个42U的机柜 空间上可以放8台4U服务器)。比如说我们国门机房 1个机柜 42U ,13A电力一个月是4000元,除8等于500元。也就是说正常在国门机房,如果1个4U的机位,在用电不超过13除以8也就是1625A的情况下,只需要500元的机位费。 当然这个是理论值,一般来说4U的机器,耗电量正常的都要在25A左右,如果是GPU专业服务器,常见耗电在5A左右,也有一台耗电量在13,或25或32A等不同档次的。
所以说咱们在托管GPU服务器的时候,一定要确定机器的耗电量是多少,然后再看是整租个普通机柜,还是租用高电机柜 放多台GPU服务器。现在大型的网络游戏厂家都选择了刀片服务器 一个大笼子里面全是服务器`一片一片的,
比如``魔兽世界向HP惠普 买了3000片刀片服务器
四核Intel Xeon X5450处理器(30GHz, 1333前端总线), 集成2x6MB二级缓存,支持两颗处理器,标配2GB(2x1GB)两路交错PC2-5300全缓冲 DDR2-667内存, 支持高级ECC,镜相内存和在线备用内存,8个内存插槽,可以扩充到64GB,集成双NC373i多功能千兆网卡,带TCP/IP Offload引擎, 通过可选的许可证可实现加速iSCSI,集成iLO 2远程管理,2个I/O扩展槽,集成Smart Array E200i SAS智能阵列控制器,64MB高速缓存(可选电池保护),支持RAID 0,1,支持2个小尺寸SAS热拔插硬盘五百万以上。
算力作为数字经济时代新的生产力,是支撑数字经济发展的坚实基础。因此算力公司不仅要有先进的设施设备,还要有相应的高技术人才以及其他相对应的配套设施。
算力是基于芯片、加速计算、服务器等软硬件技术和产品的完整系统,也是承载人工智能应用的基础平台,算力的提升是个系统工程。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)