pytorch 中遇到的若干bug记录

110226 • 2022-11-6 • 随笔 • 阅读 4

pytorch 中遇到的若干bug记录

在使用了AMP (自动混合精度)之后，模型的训练进程偶尔会出现很奇怪的现象。在训练到某个epoch之后，验证集的acc变为0%，经过调试之后发现是AMP的scaler的导致的。一般来说，scale在遇到loss为nan后，会停止本次更新，降低对loss的scale，但是我的代码在运行过程中出现-inf，而在最后经过sigmoid，结果变为0 ，从而导致loss变为常数，而非NaN，所以这当然是有问题的… (补充一下为什么要用scale,当某些计算经过amp变成版精度计算的以后，有一些少于16bit的梯度值可能会直接变为0，从而出现数值计算的上溢或下溢，pytorch使用GradScale来解决UnderFlow问题。具体可参考PyTorch的自动混合精度（AMP）
)
低级错误，验证集和训练集使用了不同的mean和std，导致验证集的指标比训练集低很多。

------------------------- 持续更新ing ---------------------------

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/4654161.html

变为训练精度验证导致

打赏

微信扫一扫

支付宝扫一扫

110226 一级用户组

用Python获得女友聊天记录，一招解决疑神疑鬼

上一篇 2022-11-06

Django - 边学Django边写毕业设计（day22 统计）

下一篇 2022-11-06

发表评论

登录后才能评论

评论列表（0条）