做深度学习的服务器需要哪些配置?

做深度学习的服务器需要哪些配置?,第1张

主要是看运行什么软件和数据量,训练数值大小,这里要强调一下,数值大小和数据量是不一样的。

深度学习服务器的核心部件还是CPU、硬盘、内存、GPU,特别是很多深度学习依靠GPU的大规模数据处理能力,这就要强调CPU的计算能力和数量,同时不同的数据对GPU的显存要求也不一样。

当下大部分都在用RTX3090做深度学习,最新RTX4090已经上市,单精度计算能力是RTX3090的2倍,这两个GPU都是24G显存;像A100强调双精度计算能力,显存有40G和80G两个版本,而A6000单精度计算能和RTX3090差不多,显存是48G,可以参考选择。

当然,最重要的还是口袋里的银子,A6000市场价大概是RTX的2倍还要多,A100最近更是要上十万了,估计也快买不到了,价高缺货;RTX3090/4090的价位低,性价比高,这也是为什么大部分人都选择它们做深度学习了,这是市场的选择。

深度学习GPU服务器属于异构计算服务器,将并行计算负载放在协处理器上。如果推荐,首选一定是英伟达GPU服务器,或者选择英伟达授权的官方代理也是可以的。国内有很多英伟达代理商,蓝海大脑就是其中之一。有兴趣的可以去了解一下。

英伟达显卡分为三个系列,面向大众的 Geforce系列,面向工业图形设计的Quadro系列,面向科学计算的Tesla系列。
Geforce系列由于面向大众,要和AMD的显卡竞争,所以性价比最高,单从性能上看甚至不输Tesla系列,但可能耐久性等其他方面不及Tesla。
用来计算的话,衡量性能主要是以下几个参数:
1、计算核心数目;
2、显存带宽;(GPU计算能力太强,很多时候瓶颈都在数据传输上)
3、峰值单精度浮点计算能力;
4、峰值双精度浮点计算能力;
5、时钟频率;
6、架构版本

硬件购买:
1 CPU:购买需要注意和主板接口类型匹配,如果很在意 GPU 是否工作在 PCIE x16 状态下,尤其是多块 GPU 都要求工作在 PCIE x16 状态下,那么需要注意主板是否支持,CPU 是否支持,这些消息都可以从主板官网(注意是官网,不是京东什么的信息说明)中查到,嫌麻烦或者查不到就问客服。一般来说家用主板 Z,B之类的一块卡工作在PCIE x16,两块卡就工作在 PCIE x8,三块及以上就工作在 PCIE x4 上了,尽量避免显卡工作在 PCIE x4 状态上,会影响内存到显存的数据传输速度。
2 主板:同 CPU,要注意和 CPU 的匹配、以及对于内存容量的支持和 PCIE x16 的支持,一般来说,多块 GPU 都工作在 PCIE x16 状态下,主板采用的 Intel 芯片都是 X 开头的,理所当然支持的 CPU 也是 X 型号的,这种主板也被称为服务器主板,一般都有 8 条内存插槽。主板这里唯一值得一提的是,深度学习训练多块 GPU 显卡之间不能靠得太近,除非是上显卡水冷,否则散热是个很大的问题,显卡太热就会降频,导致你买的好显卡没有体现出价值,还不如买个烂显卡。为此一般插显卡的时候遵循——隔着插,也就是说隔一条 PCIE 插下一块显卡,这对主板提出了更高的要求,双卡工作就需要有 4 个 PCIE 插槽,4 卡工作就要求有 8 个 PCIE 插槽,而且这样插显卡还需要满足 GPU 都工作在PCIE x16 的状态下,所以一定要仔细看官网的主板说明,不能偷懒。
3 电源:电源工作会有工作曲线,一般来说电源工作在最大功率一半的时候,效率最高,这意味着你花的每一分电费都用在了训练上,而不是逸散掉了,这样最好,比如你算了下需要 100W 的功率,那你最好买 200W 的电源。一般CPU功率在 100W 左右,GPU在 300W 左右,这样双卡功率就是 700W,买个 1300W 电源挺好,1000W 电源也是OK的,但不能更低了,除非你单卡。如果是 4 卡,建议直接 1600W。电源选择注意是否金牌,是否模组。对于那些 10 年及以上质保的,不要犹豫,这年头都给你 10 年质保了,你还有什么不满意的,价格上来说 1 元钱 1W,低于这个价格的就不要碰了,这里推荐振华。
4 GPU:穷鬼推荐 1080Ti,现在只有二手的了。其他人推荐 RTX Titan,显存大。2 块 RTX Titan 让你跑任何网络都游刃有余。
5 内存:一定要比单块 GPU 显存大,建议 32G 起步。
6 硬盘:推荐东芝 P300。
7 散热:DIY 建议不要水冷,一旦炸了,一切结束,水冷就交给厂商定制,省心省事还有质保,当然价格也贵,你也不用看此攻略了。风冷注意前面提到的显卡隔着插就 OK 了。还有就是机箱的风道一定要好,前后上三个方向都要有风扇。
8 机箱:尽量大一些,房子大谁都住得舒服,散热也好。除此之外,风道也要好,还要注意机箱大小和风扇尺寸匹配,别装不下了。推荐海盗船 AIR540,这可是 NVIDIA 服务器同款。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13174918.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-16
下一篇 2023-06-16

发表评论

登录后才能评论

评论列表(0条)

保存