用于深度学习的CPU算力越来越强,对散热的要求也越来越高。现在应该怎么做才能适应这种趋势?

用于深度学习的CPU算力越来越强,对散热的要求也越来越高。现在应该怎么做才能适应这种趋势?,第1张

个人觉得现在市面上的风冷已经不能满足深度学习GPU服务器的散热要求,需要转向新的技术以此满足深度学习训练服务器散热的需求。蓝海大脑液冷服务器 HD210 H系列突破传统风冷散热模式,采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却,其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式,可大幅提升服务器散热效率,同时,降低主要热源 CPU 散热所耗电能,并增强服务器可靠性。经检测,采用液冷服务器配套基础设施解决方案的数据中心年均 PUE 值可降低至 12 以下。是个不错的选择。

带风扇的是主动式的,好处是自带风扇,不过缺点是散热片比无风扇的被动式小,无风扇的被动式并不是真的没有风扇,一般机箱上有一个到两个风扇吹,一般品牌的服务器风扇很容易对准,组装的服务器被动式的机箱风扇不容易对准散热器,不过被动式的好处就是散热器大点,一般机箱散热正常配套的1U主动式都能顶得住,被动式的风扇对准的话也行

>

上面的是品牌机的被动式下面这个这个是比较明显的被动式散热(组装机)

即使使用最好的抑制策略与高效率冷却系统,机架中的服务器热点任然会因为计算设备次优选择或放置而产生。
意外的障碍物或空气流路偶然变化可能产生热量。举例来说,拆下服务器机架的护板,让空气流入机架计划外的位置,会削弱流动到其他服务器的空气,增加出口温度。
大幅度增加服务器能耗,同样会引起散热问题。例如,用高级刀片服务器系统替换几台1U服务器,会极大提高机架的能源开销,并且空气流量不足会直接影响到刀片机的所有模块组件。如果冷却系统不是为这样的服务器而设计,很可能经常出现热点。
在增加服务区机架密度时,运营组织需要考虑投资数据中心基础设施管理和其他系统管理工具,收集来自机架内热传感器所提供的数据并生成报告。它们可以发现超过发热限制的情况并采取必要措施,如通知技术人员,自动调用工作负载迁移或关闭系统,以防止设施过早失效。
当服务器机架规划产生热点时,IT团队可以重新分配硬件。与填充单个机架不同,若空间允许,移动一半或一、二架设备到其他机架上,或关闭过热的系统。
如果空间不足以进行重新设计,加入一些可移动、自带空调并可在数据中心内使用的冷却设备。如果机架使用紧凑型行内或机架内冷却单元,设置温度点可以比打开密闭单元,增加冷却设备更有效的实现冷却效果。 从长远来看,突破性的技术能够帮助热量管理。
水冷式机架可以通机柜门或其他路径传输冷却水。水冷式机架能能够解决大部分发热问题——尤其当只靠低温空气和高温空气对流散热不起作用时。
中浸没式冷却技术可以将服务器浸入充满像矿物油,却非导电、非腐蚀性冷却物质的浴缸中。这种技术有望实现高效率、几乎没有噪声以及接近零损耗的热传输。
然而,这些热门技术选项更适合于新数据中心架构,而不是普通的技术周期更新。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10622443.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-10
下一篇 2023-05-10

发表评论

登录后才能评论

评论列表(0条)

保存