解决训练时“cuda ：out of memory”

code • 2022-4-26 • python • 阅读 142

参考博文：[解决]GPU显存未释放问题 - 简书

在pysot训练过程中，从第11个epoch起，backbone的参数也开始参与训练，所以显存会增加，也许会导致显存溢出，训练报错停止。

首先，resume前，需要在训练前更改batch_size参数，调小一些。如果还不行，则需要考虑是否有僵尸进程占用显存。

1、查看GPU占用情况

nvidia-smi

2、查看进程号

fuser -v /dev/nvidia*

3、终止僵尸进程

kill -9 进程号

欢迎分享，转载请注明来源：内存溢出

计算机视觉神经网络深度学习目标跟踪

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-04-26

下一篇 2022-04-26

登录后才能评论