谁能告知用于做深度学习的CPU的算力越来越强，散热要求越来越高，如今应该怎么做才能适用此趋势？_服务器

个人觉得现在市面上的风冷已经不能满足深度学习GPU服务器的散热要求，需要转向新的技术以此满足深度学习训练服务器散热的需求。蓝海大脑液冷服务器 HD210 H系列突破传统风冷散热模式，采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却，其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式，可大幅提升服务器散热效率，同时，降低主要热源 CPU 散热所耗电能，并增强服务器可靠性。经检测，采用液冷服务器配套基础设施解决方案的数据中心年均 PUE 值可降低至 12 以下。是个不错的选择⌄

推荐品牌： LINKZOL(联众集群)；
可以参考其官网；
*** 作系统可以安装Ubuntu 1404 LTS，需要如下软件：
编译器：GNU编译器，包括C/C++/Fortran编译器；
Intel编译器，包括C/C++/Fortran编译器、MKL、等；
并行环境：OpenMPI、MPICH等MPI并行环境；
GPU开发环境：最新CUDA驱动、编译器、调试器、SDK及例子文件等；
cuDNN加速，CUDA FFT、CUDA BLAS等；
深度学习框架：Caffe, Torch, Theano, BIDMach、TensorFlow；其中，Caffe需要编译提供python接口和Matla（支持mex编译）接口；
DNN平台：基于B/S架构，便于用户实时且可视化地进行DNN的训练、测试
推荐配置一：
计算平台采用：LZ743GR-2G/Q
系统：Ubuntu 14043 x64
CPU:Intel Xeon十核E5-2630v4(22GHz,80 GT/s)
内存：原厂64GB内存 (16GB×4) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：INTEL 25寸240G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:希捷35寸4T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：2块NVIDIA TATAN-X GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大2个GPU卡）
电源：1200W High efficiency (96%)金牌电源
推荐配置二：
计算平台采用：LZ-748GT
系统：Ubuntu 14043 x64
CPU:Intel Xeon十二核E5-2650v4(22GHz,96 GT/s)
内存：原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：2块INTEL 25寸480G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:3块希捷35寸4T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：4块TESLA TITANX GPU计算卡或者4块tesla P4O GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大4个GPU卡）
电源：2000W High efficiency (94%)冗余钛金电源
推荐配置三：
计算平台采用：LZ428GR-8G/Q
系统：Ubuntu 14043 x64
CPU:Intel Xeon十四核E5-2690v4(26GHz,96GT/s)
内存：原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：2块INTEL 25寸480G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:3块希捷25寸2T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：8块TESLA P40 GPU计算卡或者8块NVIDIA TATAN-X GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大8个GPU卡）
电源：1600W（2+2） High efficiency (96%)钛金电源；
可以咨询：1381O114665

深度学习是作为机器学习的一个算法而存在，被称为人工神经网络，由于受到算法理论、数据、硬件的制约，多年以来一直都是单层或浅层的网络结构。随着大数据的发展，以及大规模硬件加速设备的出现，特别是GPU的不断提升，使得神经网络重新受到重视。深度学习的发展需要大数据跟计算力的支撑，蓝海大脑专注于人工智能领域，适用于GPU高性能计算、深度学习训练及推理等场景，覆盖服务器、静音工作站等多种产品形态，能够满足客户全场景需求，80%做人工智能科研等领域研究的重点高校已应用蓝海大脑的产品。

先说结论：部署的方式取决于需求

需求一：简单的demo演示，只要看看效果的，像是学校里面的demo展示这种

caffe、tf、pytorch等框架随便选一个，切到test模式，拿python跑一跑就好，顺手写个简单的GUI展示结果

高级一点，可以用CPython包一层接口，然后用C++工程去调用

需求二：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种，说白了还是有点玩玩的意思

caffe、tf、pytorch等框架随便选一个，按照官方的部署教程，老老实实用C++部署，例如pytorch模型用工具导到libtorch下跑（官方有教程，很简单）

这种还是没有脱离框架，有很多为训练方便保留的特性没有去除，性能并不是最优的；

另外，这些框架要么CPU，要么NVIDIA GPU，对硬件平台有要求，不灵活；还有，框架是真心大，占内存（tf还占显存），占磁盘

需求三：放到服务器上跑，要求吞吐和时延（重点是吞吐）

这种应用在互联网企业居多，一般是互联网产品的后端AI计算，例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署，这时不仅仅要考虑吞吐和时延，还要考虑功耗和成本。所以除了软件外，硬件也会下功夫，比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低，单位能耗下计算效率更高，且硬件结构更适合高吞吐量的情况软件上，一般都不会直接上深度学习框架。对于NVIDIA的产品，一般都会使用TensorRT来加速（我记得NVIDIA好像还有TensorRT inference server什么的，名字记不清了，反正是不仅可以加速前传，还顺手帮忙调度了）。TensorRT用了CUDA、CUDNN，而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了

需求四：放在NVIDIA嵌入式平台上跑，注重时延

比如PX2、TX2、Xavier等，参考上面（用全家桶就对了），也就是贵一点嘛

需求五：放在其他嵌入式平台上跑，注重时延

硬件方面，要根据模型计算量和时延要求，结合成本和功耗要求，选合适的嵌入式平台。比如模型计算量大的，可能就要选择带GPU的SoC，用opencl/opengl/vulkan编程；也可以试试NPU，不过现在NPU支持的算子不多，一些自定义Op多的网络可能部署不上去对于小模型，或者帧率要求不高的，可能用CPU就够了，不过一般需要做点优化（剪枝、量化、SIMD、汇编、Winograd等）顺带一提，在手机上部署深度学习模型也可以归在此列，只不过硬件没得选，用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作，在一些移动端开源框架都有人做掉了，一般拿来改改就可以用了，性能都不错。

需求六：上述部署方案不满足我的需求

比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架，性能应该都比开源框架好。只不过自己写一套比较费时费力，且如果没有经验的话，很有可能费半天劲写不好

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10432546.html

谁能告知用于做深度学习的CPU的算力越来越强，散热要求越来越高，如今应该怎么做才能适用此趋势？

发表评论

评论列表（0条）

谁能告知用于做深度学习的CPU的算力越 来越强，散热要求越来越高，如今应该怎么做才能适用此趋势？

发表评论

评论列表（0条）

谁能告知用于做深度学习的CPU的算力越来越强，散热要求越来越高，如今应该怎么做才能适用此趋势？