YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法(GTX16xx系列显卡大坑)

这篇具有很好参考价值的文章主要介绍了YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法(GTX16xx系列显卡大坑)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

0 前言(用处不大,可以直接看解决办法)

1 产生问题的原因

2 解决办法

YOLO V5

YOLO V7

2 小结


☆ 这个问题是GTX16xx用户的大坑,基本上每个GTX16xx用户使用YOLO系列算法,都会遇到这些问题。

这个方法是不彻底的解决办法,牺牲了训练的时间来换取问题的解决,经过本人在GTX1660TI笔记本上测试YOLOV5和YOLOV7算法均成功解决了。


0 前言(用处不大,可以直接看解决办法)

最近正在做目标检测相关的算法,因为要求实时性要很高,所以选择了YOLO系列算法。最先开始选择的是刚出炉新鲜的YOLOV7算法,训练时没有问题,但是在最终测试时,发现检测不出来任何的bbox,开始以为是没有训练好,但是发现训练时的validation都有bbox。最后决定还是老实采用YOLO V5算法(为什么不选美团的YOLO V6?YOLO V6在论文外的数据集,表现还没有YOLOV 5好,大家dddd),不过使用YOLOV5 时又发现了训练时出现了nan值,于是在github上yolov5问答里找到了解决办法(不使用AMP)。但是有发现了validation时出现P\R\map全为0值。于是找呀找,最后都没有发现问题所在。最后在阅读YOLO V5 的train.py的源代码发现了一些解决办法问题。

1 产生问题的原因

由于NVIDIA 官方的一些软件问题,导致了PyTorch里面一些CUDA代码有些问题,就是fp16(float16)数据类型在卷积等一些运算的时候会出现nan值。导致了训练时候出现了nan值,故而在validation时就会检测不到导致了上述情况。

2 解决办法

YOLO V5

里面检测没有nan值、不识别问题,就只有训练的时候有问题。

下面正式开始解决问题,在train.py搜索amp把check_amp注释掉直接把amp赋值为False,如下图:

使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

这样做之后在运行train.py发现训练时就不会有nan值了。如果还有,那就应该就关闭这篇博客了,考虑下其他方法了。然后,你就会发现validation时会出现P/R/map全部为0。然后你就继续在train.py里面搜索half关键字,把所有有.half()变为.float(),如下图:

使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

这样之后,你就会发现

——还是没有解决问题。

要解决这个问题,还需要在val.py里面将所有的half改为False,同时im.half() if half else im.float() 改为 im.float()。如下图:使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

 这样做之后,再次运行train.py发现没有问题了。

YOLO V7

经测试,train.py没有问题,主要还是在detect.py里面有问题。主要还是把每个地方.half()改为.float()或者把half赋值为False,如下图:

使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

使用yolov6训练数据集dfl_loss损失为0,python的使用,PyTorch,深度学习,python,目标检测

3 小结

 其实,归根究底就是NVIDIA对GTX16xx相关CUDA包有问题,有其他人说吧PyTorch版本降为1.10.1和CUDA 10.2,我也试过,确实能解决问题,但是训练时长长了很多,而且现在PyTorch官方已经不怎么支持使用CUDA 10.2版本了。

这个解决办法的原理,就是把显卡半精度浮点型数据改为单精度的浮点型去运算。这样虽然精度高了,但是训练时长也相应会增加一些、显存占用也会增加一些,但是,这样总比不能训练和不能检测要好些吧,要是有更好的办法,欢迎在评论区分享分享。。文章来源地址https://www.toymoban.com/news/detail-783658.html

contact_details_qq=277746470

到了这里,关于YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法(GTX16xx系列显卡大坑)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包