CentOS7平台部署Slurm 21.08

CentOS7平台部署Slurm 21.08,第1张

在 mysql 中执行语句:

如需更改密码可使用 mysql -p 命令,输入密码进入 mysql 后重新执行 set password

配置错误或重新设置时请使用:

安装以下库前请先确保联网,同时预先安装 epel

出现服务启动失败可通过 journalctl -xe 查看具体失败原因:

注意此时重启可能导致 XTerm 等工具无法远程服务器(可能是同 ssh 端口冲突)

后续节点机器与管理机 *** 作基本相同,如管理与节点一体可以跳过一部分 *** 扮备作:轿悔

确认已经安装:

本文最后准备厅帆毁了slurm.conf 和 slurmdbd.conf文件供参考

至此slurm安装完毕,如果启动服务的过程中报错,使用调试方式启动查看启动服务的过程中报错

https://slurm.schedmd.com/overview.html

https://slurm.schedmd.com/tutorials.html

直接看这份文档 https://www.open-mpi.org/video/slurm/Slurm_EMC_Dec2012.pdf

SLURM Entities

持续集成,定期发布可用特性

Slurm 自带Test Suite, 安装好以后可以用来做回归验证

2019.12.14 Tutorial 看完。

本系统配置了 3 个登录节点,260 个 CPU 计算节点(注意!),10 个 GPU 计算节点(注意!),一套 1.8P 共享存储。所有节点通过 100Gb/s EDR Infiniband 互联组成计算和存储网络。系统详细配置如下:

1) 登录管理节点:共 3 个登录节点。(只影响登陆滑乎)

2) GPU 计算节点:共 10 个 GPU 计算节点,每个节点配置 2 颗 Intel Golden 6240 系列处理

器(每个卡有18核处理器),共 36 个物理核,384GB 内存,8 个 NVIDIA V100 GPU 卡。

3) CPU 计算节点:共 260 个 CPU 计算节点,每个节点配置 2 颗 Intel Golden 6240 系列处

理器(每个卡18核处理器),共 36 物理核,384GB 内存(伏让掘注意)(根据 IB 网络配置,单个作业最多使用 160 个计算节

点)。

4) 并行存储系统:配置一套 DDN 并行存储系统,共配置 1.8PB 存储容量。

5) 管理网络:配置一套千兆管理网;

6) 带外管理网络:配置一套千兆带外管理网;

7) 计算网络:配置一套 100Gb/s 高速 Infiniband 网。

总共电脑数有几个不知道啊。

计算节点数/计算机数 = 每台计算机运行节点数

为什么要分配节点数,因为一台计算机的内存有限,最常见的原因是求解器所需的内存太多,无法在一台主机上运行。系统最大384GB 内存

nnhost表示要在每个主机计算几个节点。

理论上可以用160个计算节点,于是160✖️36=5760。

也就是每个计算节点最多可以申请36个核,cpu最多申请活动缺核的总核数可以到达5760个。但实际不可能让你申请那么多计算节点,全校这么多人在用。

例如:

使用4个计算节点(nn=4),每个计算节点分配8个核(np=8,np*nn=32),每个计算机分配2个节点(nnhost=2)

这样实际就用了两台计算机

使用2个计算节点(nn=2),每个计算节点12个核(np=12,np*nn=24),每个计算机分配1个节点(nnhost=1)

这样也是用了两台计算机

这些是我的观点,有错误可以指出

例子:

表示1个计算节点,每个主机计算12个节点数,每个节点都使用12个内核

分布式计算就是希望通过指派多个节点,并行计算程序(我在瞎说,不严格就当没看到)

但并不是核越多越好问题的规模会影响加速效果。对于非常大型的模型(如几百万个自由度),加速效果会更好。如果您使用非常小的模型,则在使用多个内核时,加速会受到限制。此外,可能达到的最大加速效果还受到算法非并行部分的限制。

运行时长例子:针对同一套matlab程序,有

参考: http://cn.comsol.com/support/knowledgebase/1001

https://cn.comsol.com/blogs/hybrid-computing-advantages-shared-distributed-memory-combined/

安装的例子b站很多,可以多搜索多试试

北航超算居然没有安装matlab,滑天下之大稽,居然有高校超算不装matlab的,真是闻所未闻....

事先说明,csdn有个北航安装超算的帖子,本人亲测无用,因为是用X11的,下不到X11的我直接选择静默安装。

那个帖子如下: https://blog.csdn.net/weixin_41692946/article/details/120971906

我的安装历程:

或者通过命令修改

chmod 777 /路径/install

好的,修改命令的指令你会了。你需要修改这几个文件的权限:

修改完了;当然你也可以对所有文件修改权限,注意要用resursively

后来发现:必须静默模式下安装,因为没有可视化界面

接着报错:说 the Installer cannot be run from inside the DVD directory. Change to your home directory and execute this command.

百度之,发现不能直接在挂载的目录即matlab文件夹下运行./install,可以返回上级目录运行./matlab/install

好吧,把安装的绝对路径及序列号加上

最终安装命令:

好,这下成功安装中了,接着和师弟出去吃饭了,回来一看傻眼了,被程序kill了

忍住吐槽的心(安装个matlab也能负载过高,你这可是超算啊),把原来的安装残余文件删除(不然这些残余文件会影响下次安装)

自己写个脚本提交计算节点好了

于是我把脚本放在这里了, 建立了脚本 install_mat.sh,注意要改成 LF格式。不然提交会报错说识别不了\n\r.

(Batch script contains DOS line breaks (\r\n))

提交完,系统又卡bug了,不过这次是官方的问题

美滋滋出去吃个夜宵

安装OK的标志:查看文件slurm-4537276.out

会有信息

妥了

好,告诉我们两个事:

出现以下文字

成功打开

有些可能需要清空系统的缓存,命令rm -r -f ~/.matlab/(我没试过,总之看rp)

这种方法不推荐,因为不能调度服务器的资源

然后接着激活,在命令行中输入

激活后即可使用。

于是采用matlab提交作业脚本进行提交,提交脚本如官方指导,奉上

matlab_slurm.sh

Bingo!

参考:视频

https://www.cnblogs.com/graybird/p/9104581.html

https://blog.csdn.net/yuanchheneducn/article/details/50172027

https://blog.csdn.net/weixin_40562999/article/details/112394410

https://zhuanlan.zhihu.com/p/339545166

https://blog.csdn.net/sethinking/article/details/88375995

https://blog.csdn.net/qq_15015187/article/details/107740427

https://blog.csdn.net/weixin_45092662/article/details/121299887

Comsol安装并无大碍,非常顺利,我的是6.0版本

1 如前一样。

修改权限

2 按照流程安装comsol,其他没啥可说的。因为comsol需要无图形界面安装

需要修改 setupconfig.ini 文件,主要是一个静默安装、一个同意条款、安装文件路径、然后破解许可证文件路径。

然后 命令行

安装完成即可

参考:

https://blog.csdn.net/sowhatgavin/article/details/70666200

https://www.bilibili.com/video/BV1vi4y117N9?spm_id_from=333.337.search-card.all.click

基本需要多试几个节点

参考:来自视频

参考: https://www.cnblogs.com/xiao-apple36/p/9264875.html


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12519390.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存