训练好的深度学习模型是怎么部署的?

训练好的深度学习模型是怎么部署的?,第1张

先说结论:部署的方式取决于需求

需求一:简单的demo演示,只要看看效果的,像是学校里面的demo展示这种

caffe、tf、pytorch等框架随便选一个,切到test模式,拿python跑一跑就好,顺手写个简单的GUI展示结果

高级一点,可以用CPython包一层接口,然后用C++工程去调用

需求二:要放到服务器上去跑,但一不要求吞吐二不要求时延的那种,说白了还是有点玩玩的意思

caffe、tf、pytorch等框架随便选一个,按照官方的部署教程,老老实实用C++部署,例如pytorch模型用工具导到libtorch下跑(官方有教程,很简单)

这种还是没有脱离框架,有很多为训练方便保留的特性没有去除,性能并不是最优的;

另外,这些框架要么CPU,要么NVIDIA GPU,对硬件平台有要求,不灵活;还有,框架是真心大,占内存(tf还占显存),占磁盘

需求三:放到服务器上跑,要求吞吐和时延(重点是吞吐)

这种应用在互联网企业居多,一般是互联网产品的后端AI计算,例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署,这时不仅仅要考虑吞吐和时延,还要考虑功耗和成本。所以除了软件外,硬件也会下功夫,比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低,单位能耗下计算效率更高,且硬件结构更适合高吞吐量的情况软件上,一般都不会直接上深度学习框架。对于NVIDIA的产品,一般都会使用TensorRT来加速(我记得NVIDIA好像还有TensorRT inference server什么的,名字记不清了,反正是不仅可以加速前传,还顺手帮忙调度了)。TensorRT用了CUDA、CUDNN,而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了

需求四:放在NVIDIA嵌入式平台上跑,注重时延

比如PX2、TX2、Xavier等,参考上面(用全家桶就对了),也就是贵一点嘛

需求五:放在其他嵌入式平台上跑,注重时延

硬件方面,要根据模型计算量和时延要求,结合成本和功耗要求,选合适的嵌入式平台。比如模型计算量大的,可能就要选择带GPU的SoC,用opencl/opengl/vulkan编程;也可以试试NPU,不过现在NPU支持的算子不多,一些自定义Op多的网络可能部署不上去对于小模型,或者帧率要求不高的,可能用CPU就够了,不过一般需要做点优化(剪枝、量化、SIMD、汇编、Winograd等)顺带一提,在手机上部署深度学习模型也可以归在此列,只不过硬件没得选,用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作,在一些移动端开源框架都有人做掉了,一般拿来改改就可以用了,性能都不错。

需求六:上述部署方案不满足我的需求

比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架,性能应该都比开源框架好。只不过自己写一套比较费时费力,且如果没有经验的话,很有可能费半天劲写不好

深度学习是作为机器学习的一个算法而存在,被称为人工神经网络,由于受到算法理论、数据、硬件的制约,多年以来一直都是单层或浅层的网络结构。随着大数据的发展,以及大规模硬件加速设备的出现,特别是GPU的不断提升,使得神经网络重新受到重视。深度学习的发展需要大数据跟计算力的支撑,蓝海大脑专注于人工智能领域,适用于GPU高性能计算、深度学习训练及推理等场景,覆盖服务器、静音工作站等多种产品形态,能够满足客户全场景需求,80%做人工智能科研等领域研究的重点高校已应用蓝海大脑的产品。

Gpu服务器自带深度学习框架,GPU一个比较重要的优势就是他的内存结构,首先是共享内存,每个流处理器集群末端设有共享内存,提供深度学习框架。服务器性能主要决定于GPU的浮点运算能力,对深度学习任务来说,单精浮点运算以及更低的半精浮点运算性能则更为重要。

GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。

制造工艺

集成电路发展到纳米级工艺 ,不断逼近物理极限 ,出现了所谓红墙问题,一是线的延迟比门的延迟越来越重要。长线不仅有传输延迟问题,而且还有能耗问题。二是特征尺寸已小到使芯片制造缺陷不可避免,要从缺陷容忍、故障容忍与差错容忍等三个方面研究容错与避错技术。

以上内容参考  百度百科-gpu

推荐品牌: LINKZOL(联众集群);
可以参考其官网;
*** 作系统可以安装Ubuntu 1404 LTS,需要如下软件:
编译器:GNU编译器,包括C/C++/Fortran编译器;
Intel编译器,包括C/C++/Fortran编译器、MKL、等;
并行环境:OpenMPI、MPICH等MPI并行环境;
GPU开发环境:最新CUDA驱动、编译器、调试器、SDK及例子文件等;
cuDNN加速,CUDA FFT、CUDA BLAS等;
深度学习框架:Caffe, Torch, Theano, BIDMach、TensorFlow;其中,Caffe需要编译提供python接口和Matla(支持mex编译)接口;
DNN平台:基于B/S架构,便于用户实时且可视化地进行DNN的训练、测试
推荐配置一:
计算平台采用:LZ743GR-2G/Q
系统:Ubuntu 14043 x64
CPU:Intel Xeon十核E5-2630v4(22GHz,80 GT/s)
内存:原厂64GB内存 (16GB×4) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:INTEL 25寸240G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:希捷35寸4T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:2块NVIDIA TATAN-X GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大2个GPU卡)
电源:1200W High efficiency (96%)金牌电源
推荐配置二:
计算平台采用:LZ-748GT
系统:Ubuntu 14043 x64
CPU:Intel Xeon十二核E5-2650v4(22GHz,96 GT/s)
内存:原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:2块INTEL 25寸480G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:3块希捷35寸4T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:4块TESLA TITANX GPU计算卡或者4块tesla P4O GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大4个GPU卡)
电源:2000W High efficiency (94%)冗余钛金电源
推荐配置三:
计算平台采用:LZ428GR-8G/Q
系统:Ubuntu 14043 x64
CPU:Intel Xeon十四核E5-2690v4(26GHz,96GT/s)
内存:原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:2块INTEL 25寸480G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:3块希捷25寸2T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:8块TESLA P40 GPU计算卡或者8块NVIDIA TATAN-X GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大8个GPU卡)
电源:1600W(2+2) High efficiency (96%)钛金电源;
可以咨询:1381O114665

蓝海大脑深度学习液冷服务器研究人员表示:StellarX 是一款由 OVA 驱动的元宇宙创建软件,无需任何编程知识便可使用该软件。该 3D 创作解决方案由 AI 驱动,目前可在电脑桌面上和扩展现实(XR)中使用。非编程人员可以利用该软件,通过简单的拖放 *** 作,构建沉浸式工作场景。
StellarX 目前可在 Steam/Steam XR 上使用,并且即将在 Meta Quest Store 发布。NVIDIA CloudXR 赋能 StellarX 进行无线流式传输,可助力各行业的业务团队不受线缆束缚,持续在元宇宙中进行创作、协作和互动。
StellarX 首席执行官 Harold Dumur 表示:“‘无线自由’如同手套适合戴在手上一般,适用于需要进行持续或者突然移动的沉浸式培训。我们在为魁北克市的警察、医疗和消防单位开发高保真 XR 模拟后,意识到无线模式可助力改进此类培训课程。因此,在测试了各种 XR 流式传输解决方案后,我们最终决定使用 CloudXR 作为我们的流式传输方案。”
此前,StellarX 与合作伙伴 LCI LX 共同进行了无线流式传输测试。双方为 ENCQOR 5G 开发了一个以时尚史为内容的 XR 教育课程,学生可以通过与 3D 博物馆内的道具进行互动来学习相关内容。借助 NVIDIA CloudXR SDK,基于强大的 NVIDIA RTX GPU 的驱动,StellarX 开发的这门课程在 5G 网络上实现了流式传输。
CloudXR 支持功能将持续赋能 StellarX,例如通过头显提供高端 XR 体验、降低本地硬件要求、保持低网络延迟等。

根据不同的深度学习架构,GPU参数的选择优先级不同,性价比可能是选择一款GPU最重要的考虑因素。Nvidia无疑是深度学习硬件领域的领导者。大多数深度学习库为英伟达GPU提供了最好的支持,软件是英伟达GPU非常强大的一部分。我们公司的服务器和英伟达官方授权经销商蓝海大脑有合作。质量和售后服务都挺好的⌄到现在都没出过问题。

针对人工智能的深度学习场景,思腾合力研发出深思AW4211-8GR服务器,具有高性能、高密度、可扩展性强的特点,支持双路AMD7002系列处理器,CPU直通设计,延迟降低至少150ms,同时节省PCIE Switch成本,可广泛应用于AI、深度学习场景,也可作为GPU计算集群高密度、高性能的节点平台。想了解更多可以百度一下

CPU和主板支持什么内存就插哪种。主要参数就是类型,ddr4,ddr3这种的表示。频率要看主板支持多大,在主板BIOS设置中要设置才会倍频,要不白买高频率的了。

内存大小,当然越大越好!还是那句话看主板支持多大的内存。一般16g一个人用足够,多个人怎么也得32g吧。毕竟matlab有时还是会用到的,内存别太小。

一般就是看威刚,金士顿,芝奇,海盗船这几个牌子,芝奇,海盗船用的晶元据说好一些,金士顿也有骇客神条,还是看预算吧,一般不会差太多钱。

支持深度学习服务器定制,欢迎了解更多解决方案:网页链接


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13163662.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-14
下一篇 2023-06-14

发表评论

登录后才能评论

评论列表(0条)

保存