NCCL分布式训练报错

NCCL分布式训练报错,第1张

调试的时候遇到问题:

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error, NCCL version 2.7.8

于是在环境变量里添加了

export NCCL_DEBUG=info

发现是没有多余共享内存的问题

include/shm.h:48 NCCL WARN Error while creating shared memory segment ...

于是修改docker容器共享内存的大小

最简单的方法是重新建一个容器,在run的时候添加参数-shm-size 6G,但是由于需要重新配置内网穿透,故采用直接修改docker文件的方式

一般原始大小为64M,这是远远不够的

将ShmSize后面加个“22”大概扩大了100倍

此时再查看共享内存大小,发现就变为了6.3G


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/9903532.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存