深度学习服务器/工作站,不能单独考虑硬件配置高低,以及预算多少,要根据使用者的类型,配置合理的硬件,硬件配置至少分为两个类型:
一、深度学习开发工作站/服务器
基本要求:
1)处理器:8核或以上
2)内存:64G内存或以上
3)GPU:1-4块GTX1080Ti,GTX Titan XP/V,Quadro GP100
4)系统硬盘:选用高速的SSD固态硬盘
二、深度学习训练工作站/服务器
基本要求:
1)处理器:8核或以上
2)内存:128G内存以上
3)GPU:4-10块Tesla系列GPU(K40,K80,P100,V100)
4)系统硬盘:选用高速的SSD固态硬盘组阵列(工作站:要求噪音小,适合办公室使用,服务器:要求密度高,噪音大,一般适用于机房)
产品类型 4U机架式1 CPU 金牌6326 16核心32线程 基频29GHZ 加速频率35GHZ TDP: 185W 2
2 内存 512G(32GB32) DDR4 3200MHZ 1
4 准系统 超微420GP-TNR 4U机架式准系统, 带2200W冗余2+2电源;平台最大支持lO个GPU
32个DIMM插槽;母板超级X12DPG-OA6处理器中央处理器双插槽 P+ (LGA-4189)第三代英特尔 至强 可扩展处理器支持CPU TDP 270W核心高达40C/80T;高达 60MB 的缓存图形处理器支持的GPUHGX A100 8-GPU 40GB/80GB SXM4 多 GPU 1
5 SSD 三星PM9A1 1TB M2接口 NVMe协议 四通道 PCIe40 固态硬盘 1
6 SATA 希捷(Seagate)银河系列V6 6TB ST6000NM021A 7200RPM 256MB SATA3企业级硬盘 1
7 GPU卡 英伟达RTX 4090公版 4
深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理等多个领域都取得了卓越的成果,可见其重要性
熟悉深度学习的人都知道,深度学习是需要训练的,所谓的训练就是在成千上万个变量中寻找最佳值的计算。这需要通过不断的尝试识别,而最终获得的数值并非是人工确定的数字,而是一种常态的公式。通过这种像素级的学习,不断总结规律,计算机就可以实现像人一样思考。因而,更擅长并行计算和高带宽的GPU,则成了大家关注的重点。
很多人认为深度学习GPU服务器配置跟普通服务器有些不一样,就像很多人认为做设计的机器一定很贵一样。其实只要显卡或者CPU满足深度学习的应用程序就可以进行深度学习。由于现在CPU的核心数量和架构相对于深度学习来说效率会比GPU低很多,所以大部分深度学习的服务器都是通过高端显卡来运算的。
这里谈谈关于深度学习GPU服务器如何选择,深度学习服务器的一些选购原则和建议:
1、电源:品质有保障,功率要足够,有30~40%冗余
稳定、稳定、还是稳定。一个好的电源能够保证主机再长时间运行不宕机和重启。可以想象一下,计算过程中突然重启,那么又要重来,除了降低效率,还影响心情。有些电源低负载使用的时候可能不出问题,一旦高负载运行的时候就容易出问题。选择电源的时候一定要选择功率有冗余品质过硬,不要功率刚刚好超出一点。
2、显卡:目前主流RTX3090,最新RTX4090也将上市
显卡在深度学习中起到很重要的作用,也是预算的一大头。预算有限,可以选择RTX3080 /RTX3090/RTX4090(上月刚发布,本月12日上市)。预算充足,可以选择专业深度学习卡Titan RTX/Tesla V100 /A6000/A100/H100(处于断供中)等等。
3、CPU:两家独大,在这要讲的是PC级和服务器级别处理器的定位
Intel的处理器至强Xeon、酷睿Core、赛扬Celeron、奔腾Pentium和凌动Atom5个系列,而至强是用于服务器端,目前市场上最常见的是酷睿。当下是第三代Xeon Scalable系列处理器,分为Platinum白金、Gold金牌、 Silver 银牌。
AMD处理器分为锐龙Ryzen、锐龙Ryzen Pro、锐龙线程撕裂者Ryzen Threadripper、霄龙EPYC,其中霄龙是服务器端的CPU,最常见的是锐龙。当下是第三代 EPYC(霄龙)处理器 ,AMD 第三代 EPYC 7003 系列最高 64核。
选择单路还是双路也是看软件,纯粹的使用GPU运算,其实CPU没有多大负载。考虑到更多的用途,当然CPU不能太差。主流的高性能多核多线程CPU即可。
4、内存:单根16G/32G/64G 可选,服务器级别内存有ECC功能,PC级内存没有,非常重要
内存32G起步,内存都是可以扩展的,所以够用就好,不够以后可以再加,买多了是浪费。
5、硬盘:固态硬盘和机械硬盘,通常系统盘追求速度用固态硬盘,数据盘强调存储量用机械盘
固态选择大品牌企业级,Nvme或者SATA协议区别不大,杂牌固态就不要考虑了,用着用着突然掉盘就不好了。
6、机箱平台:服务器级别建议选择超微主板平台,稳定性、可靠性是第一要求
预留足够的空间方便升级,比如现在使用单显卡,未来可能要加显卡等等;结构要合理,合理的空间更利于空气流动。最好是加几个散热效果好的机箱风扇辅助散热。温度也是导致不稳定的一个因素。
7、软硬件支持/解决方案:要有
应用方向:深度学习、量化计算、分子动力学、生物信息学、雷达信号处理、地震数据处理、光学自适应、转码解码、医学成像、图像处理、密码破解、数值分析、计算流体力学、计算机辅助设计等多个科研领域。
软件: Caffe, TensorFlow, Abinit, Amber, Gromacs, Lammps, NAMD, VMD, Materials Studio, Wien2K, Gaussian, Vasp, CFX, OpenFOAM, Abaqus, Ansys, LS-DYNA, Maple, Matlab, Blast, FFTW, Nastran等软件的安装、调试、优化、培训、维护等技术支持和服务。
————————————————
版权声明:本文为CSDN博主「Ai17316391579」的原创文章,遵循CC 40 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:>
不一定,深度学习可以在本地计算机上运行,也可以在服务器上运行。但是,通常情况下,深度学习需要处理大量的数据和复杂的计算,因此需要比普通计算机更高效的硬件和更大的存储空间。因此,一些公司和组织通常会使用高性能计算机(HPC)或云计算平台来运行深度学习任务。在本地运行深度学习任务的主要优点是可以对计算机进行更好的控制,可以使用自己的硬件和软件。此外,本地计算机可以更好地保护数据的隐私和安全性。但是,本地计算机的计算能力和存储空间通常受限,因此可能无法满足大规模深度学习任务的需求。
使用服务器或云计算平台运行深度学习任务的主要优点是可以获得更高的计算能力和更大的存储空间。此外,使用云计算平台可以根据需要调整计算资源的规模,从而更好地应对不同规模的深度学习任务。但是,使用云计算平台需要支付相应的费用,并且需要注意数据隐私和安全性的保护。
先说结论:部署的方式取决于需求
需求一:简单的demo演示,只要看看效果的,像是学校里面的demo展示这种
caffe、tf、pytorch等框架随便选一个,切到test模式,拿python跑一跑就好,顺手写个简单的GUI展示结果
高级一点,可以用CPython包一层接口,然后用C++工程去调用
需求二:要放到服务器上去跑,但一不要求吞吐二不要求时延的那种,说白了还是有点玩玩的意思
caffe、tf、pytorch等框架随便选一个,按照官方的部署教程,老老实实用C++部署,例如pytorch模型用工具导到libtorch下跑(官方有教程,很简单)
这种还是没有脱离框架,有很多为训练方便保留的特性没有去除,性能并不是最优的;
另外,这些框架要么CPU,要么NVIDIA GPU,对硬件平台有要求,不灵活;还有,框架是真心大,占内存(tf还占显存),占磁盘
需求三:放到服务器上跑,要求吞吐和时延(重点是吞吐)
这种应用在互联网企业居多,一般是互联网产品的后端AI计算,例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署,这时不仅仅要考虑吞吐和时延,还要考虑功耗和成本。所以除了软件外,硬件也会下功夫,比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低,单位能耗下计算效率更高,且硬件结构更适合高吞吐量的情况软件上,一般都不会直接上深度学习框架。对于NVIDIA的产品,一般都会使用TensorRT来加速(我记得NVIDIA好像还有TensorRT inference server什么的,名字记不清了,反正是不仅可以加速前传,还顺手帮忙调度了)。TensorRT用了CUDA、CUDNN,而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了
需求四:放在NVIDIA嵌入式平台上跑,注重时延
比如PX2、TX2、Xavier等,参考上面(用全家桶就对了),也就是贵一点嘛
需求五:放在其他嵌入式平台上跑,注重时延
硬件方面,要根据模型计算量和时延要求,结合成本和功耗要求,选合适的嵌入式平台。比如模型计算量大的,可能就要选择带GPU的SoC,用opencl/opengl/vulkan编程;也可以试试NPU,不过现在NPU支持的算子不多,一些自定义Op多的网络可能部署不上去对于小模型,或者帧率要求不高的,可能用CPU就够了,不过一般需要做点优化(剪枝、量化、SIMD、汇编、Winograd等)顺带一提,在手机上部署深度学习模型也可以归在此列,只不过硬件没得选,用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作,在一些移动端开源框架都有人做掉了,一般拿来改改就可以用了,性能都不错。
需求六:上述部署方案不满足我的需求
比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架,性能应该都比开源框架好。只不过自己写一套比较费时费力,且如果没有经验的话,很有可能费半天劲写不好
CPU和主板支持什么内存就插哪种。主要参数就是类型,ddr4,ddr3这种的表示。频率要看主板支持多大,在主板BIOS设置中要设置才会倍频,要不白买高频率的了。
内存大小,当然越大越好!还是那句话看主板支持多大的内存。一般16g一个人用足够,多个人怎么也得32g吧。毕竟matlab有时还是会用到的,内存别太小。
一般就是看威刚,金士顿,芝奇,海盗船这几个牌子,芝奇,海盗船用的晶元据说好一些,金士顿也有骇客神条,还是看预算吧,一般不会差太多钱。
支持深度学习服务器定制,欢迎了解更多解决方案:网页链接
要做一个深度学习的服务器,需要的配置有GPU RAM, 储存器,因为GPU是在我做深度学习服务器里面一个非常重要的部分,相当于是一个心脏,是非常核心的一个服务器,所以GPU是一个非常重要的东西,储存器也是相当重要的,因为很多数据都要放在ssd储存器上。珍岛GPU云服务器。珍岛GPU云服务器适用于深度学习,针对AI,数据分析在各种规模上实现出色的加速,应对极其严峻的计算挑战,同时珍岛云提供多种GPU实例规格。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)