NCCL分布式训练报错

hg8245 • 2023-5-3 • 教程 • 阅读 7

调试的时候遇到问题：

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error, NCCL version 2.7.8

于是在环境变量里添加了

export NCCL_DEBUG=info

发现是没有多余共享内存的问题

include/shm.h:48 NCCL WARN Error while creating shared memory segment ...

于是修改docker容器共享内存的大小

最简单的方法是重新建一个容器，在run的时候添加参数-shm-size 6G，但是由于需要重新配置内网穿透，故采用直接修改docker文件的方式

一般原始大小为64M，这是远远不够的

将ShmSize后面加个“22”大概扩大了100倍

此时再查看共享内存大小，发现就变为了6.3G

欢迎分享，转载请注明来源：内存溢出

容器这是大小内存时候

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-05-03

下一篇 2023-05-03

登录后才能评论