参考博文:[解决]GPU显存未释放问题 - 简书
在pysot训练过程中,从第11个epoch起,backbone的参数也开始参与训练,所以显存会增加,也许会导致显存溢出,训练报错停止。
首先,resume前,需要在训练前更改batch_size参数,调小一些。如果还不行,则需要考虑是否有僵尸进程占用显存。
1、 查看GPU占用情况
nvidia-smi
2、查看进程号
fuser -v /dev/nvidia*
3、终止僵尸进程
kill -9 进程号
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)