做数据集群训练,如何比较好的资源调度做到程序稳定(多深度学习GPU的调度策略)?

做数据集群训练,如何比较好的资源调度做到程序稳定(多深度学习GPU的调度策略)?,第1张

蓝海大脑液冷数据中心研发人员指出:这是一个就是GPU集群管理调度的一个问题,现在主流的GPU系统在国内可以分成2部分,一类是交通系统,一类是基于容器的一个比如K8S的调度编排的一个调度系统。K8S里面是支持了GPU设备的自发现,然后你只是去提交GPU的一个请求的个数以及GPU资源的类型,然后它会自动去帮你去做调度。另外的话是以HPC为传统的那种,比如说PPS或SLAM调度,SLAM里面也有支持GPU设备的一个自我调度,然后把GPU设备作为一个计算对象可以去请求。当然由于GPU系统的拓扑结构是一样的,不同的调度算法,给你分配的GPU资源可能会存在一些GPU拓扑不是最优的情况。然后针对这种情况,不管是SLAM还是K8S系统,NVIDIA写了一个拓扑自我检测的小程序算法,它可以很好的集成到K8S以及SLAM里面,然后在做GPU资源分配时,根据这个算法去分配GPU资源,以保证你分配的CPU资源是最优的,拓扑最优,而且也会保证以后的分配,对以后资源的拓扑最优也会有保证。

当我们写了个NodeJS程序的时候,一般用node

yourjsfile.js命令启动该程序。但是如果程序中有东西出错,这个进程就会退出。我们写程序不可能保证万无一失,肯定有些没有处理的错误,这就

让很多人觉得NodeJS不稳定,容易产生很多故障。 下面我就讲讲几种方法增加你的NodeJS程序的稳定性。

1.使用 try{…} catch(error){…} 来执行容易出错的代码段。比如解析一个外来的json字符串等。

2.使用 process.on('uncaughtException’, function(err){…})来处理未被捕捉的错误。

3.试用奶妈进程来启动你的程序,检测子进程的退出,然后自动重启该进程。比如 mother.js

第 章 Java性能调优概述

性能概述

看懂程序的性能

性能的参考指标

木桶原理与性能瓶颈

Amdahl定律

设计调优

代码调优

JVM调优

数据库调优

*** 作系统调优

优化的一般步骤

系统优化注意事项

小结

第 章设计优化

善用设计模式

单例模式( )

单例模式( )

单例模式( )

代理模式( )

代理模式( )

代理模式( )

代理模式( )

代理模式( )

代理模式( )

代理模式( )

享元模式( )

享元模式( )

装饰者模式( )

装饰者模式( )

装饰者模式( )

装饰者模式( )

观察者模式( )

观察者模式( )

观察者模式( )

Value Object模式( )

Value Object模式( )

业务代理模式( )

业务代理模式( )

缓冲(Buffer)( )

缓冲(Buffer)( )

缓存(Cache)( )

缓存(Cache)( )

缓存(Cache)( )

对象复用 池 ( )

对象复用 池 ( )

对象复用 池 ( )

对象复用 池 ( )

对象复用 池 ( )

并行替代串行

负载均衡( )

负载均衡( )

负载均衡( )

负载均衡( )

时间换空间

空间换时间

小结

编辑推荐

       Java程序设计培训视频教程

       J EE高级框架实战培训视频教程

       J ME移动开发实战教学视频

Visual C++音频/视频技术开发与实战

Oracle索引技术

lishixinzhi/Article/program/Java/gj/201311/27852


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11914571.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存