最近用YOLOV5训练自己的数据集,出现了训练失败的情况,比如box,obj,cls,labels等均为nan或0,找了很多办法,其实就是cuda与PyTorch版本的问题
Epoch gpu_mem box obj cls labels img_size
0/499 1.76G nan nan nan 25 640: 100%|██████████| 140/140 [04:19<00:00, 1.85s/it]
Class Images Labels P R mAP@.5 mAP@.5:.95: 100%|██████████| 8/8 [00:05<00:00, 1.50it/s]
all 63 0 0 0 0 0
我的cuda版本是11.2,PyTorch1.9,可能以前安装的有问题,重新安装官网的cuda11.3版本也是没有解决,可能重置电脑后用11.3的才能跑通,在网上找了很多办法,安装cuda10.2版本与对应的PyTorch即可
这里我没有卸载cuda11.3,直接安装了cuda10.2与对应的cudnn,注意一下如果电脑有多个cuda共存的时候,安装一定要选择自定义安装,安装的时候有三个选项,第一个选项是cuda,只选择cuda即可,后面两个选项不要选择! 这里我已经安装完了就懒得再截图了,注意一下别选可以了。
cuda10.2下载:https://developer.nvidia.com/cuda-10.2-download-archive
cudnn下载,选择对应cuda10.2的即可,注意配置cudnn的环境变量:https://developer.nvidia.com/rdp/cudnn-download
安装对应PyTorch:cuda10.2版本已经不可用了,但是在以前的版本中可以找到,点击install previous versions of PyTorch进去找对应版本即可
文章来源:https://www.toymoban.com/news/detail-400589.html
yolov5就可以正常训练了:
文章来源地址https://www.toymoban.com/news/detail-400589.html
到了这里,关于解决YOLOV5训练时P、R、mAP等值均为0的问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!