RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error, NCCL version 2.7.8
于是在环境变量里添加了
export NCCL_DEBUG=info
发现是没有多余共享内存的问题
include/shm.h:48 NCCL WARN Error while creating shared memory segment ...
最简单的方法是重新建一个容器,在run的时候添加参数-shm-size 6G,但是由于需要重新配置内网穿透,故采用直接修改docker文件的方式
一般原始大小为64M,这是远远不够的
将ShmSize后面加个“22”大概扩大了100倍
此时再查看共享内存大小,发现就变为了6.3G
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)