【tph-yolov5】论文简读

这篇具有很好参考价值的文章主要介绍了【tph-yolov5】论文简读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文名称: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios
论文下载地址:https://arxiv.org/abs/2108.11539
代码运行参考博客:https://blog.csdn.net/zztjl/article/details/123870061添加链接描述

一、摘要

概述了模型解决的问题域,以及tph-yolov5主要模块。

问题域:主要针对无人机图像检测。无人机拍摄图像相比一般目标检测图像的检测难点有:

  • 飞行高度变化导致目标尺度变化剧烈,增加模型负担
  • 快速低空飞行造成密集目标区域的运动模糊,给目标区分带来挑战。

模型:本文模型在yolov5的基础上,提出了不同的模块以解决上述问题。

  • 增加了一个预测头检测不同尺度的目标
  • 使用TPH(Transformer Prediction Heads)代替原始预测头,开发自注意力机制的预测潜力(这里后面可以再看看,还是有点不明白)
  • 使用CBAM(Convolutional block attention model)发现密集目标的注意区域
  • 采用了一系列tricks:数据增强、多尺度测试、多模型融合、额外分类器等

训练集及结果
数据集:VisDrone2021
实验结果:VisDrone2021挑战赛第五名(AP39.18%),与第一名(AP39.43%)差距很小。
【tph-yolov5】论文简读

二、Introduction

2.1 直接使用常规目标检测模型检测无人机图像存在的挑战:

  • 尺度变化问题:飞行高度的改变导致目标尺度变化剧烈
  • 高密度:无人机图像包含密集目标对象,对象间产生遮挡
  • 困惑目标:无人机图像因为覆盖范围大往往包含许多令人困惑的地理元素
    【tph-yolov5】论文简读
    2.2 本文训练过程示意图【tph-yolov5】论文简读
    网络组成:
  • backbone: CSPDark-net53;neck:PANet(path aggregation network).和YOLOV5版本一致
  • detection heads:tiny、small 、medium、large objects(引入了tiny object dectection head)
  • TPH代替原始预测头,可以在高密度场景准确定位目标
  • CBAM寻找图片中的attention region
  • tricks:训练时采用数据增加,增加模型对目标尺度变化的鲁棒性;推理阶段,采用ms-testing和multi-model ensemble策略;引入了一个自训练分类器(ResNet 18)来提高模型的分类能力。(此分类器的训练数据来自原始训练数据的裁剪补丁???)

三、相关工作

3.1 数据增强:光度畸变、几何畸变;MixUP、Mosaic、传统方法。

3.2 Multi-Model Ensemble Method
就是ensemble来自不同检测模型的boxes方法:NMS、Soft-NMS、WBF。

3.3 TPH-Yolov5
【tph-yolov5】论文简读

  • Prediction head for tiny objects:发现Visdrone2021数据集中存在很多极小实例目标,增加了一个额外的tiny目标检测头用于tiny物体检测。
  • Transformer encoder block:捕获全局信息和上下文信息,替换掉一些卷积层,在处理密集场景中的物体时表现更好;将transformer encoder blocks 放在backbone的尾部以及head部分的原因是为了特征图分辨率较低,能够有效降低昂贵的计算和内存成本。
  • CBAM:在处理令人困惑的地理区域时,使模型更好的专注于有用的目标对象。
  • Ms-testing and model ensemble:模型输入有六种不同的图片尺寸,使用NMS融合预测结果,在不同模型上,使用WBF得到最后结果。
  • self-trained classifier:选择ResNet18 作为分类网络,加强网络分类能力。

四、实验

4.1基础环境
Pytorch 1.8.1、显卡:RTX3090
4.2 实现细节

  • pre-trained:yolov5x(成本比较高,自己可以用yolov5s,感觉精度相差应该不大)
  • 65 epochs,前两个用于warm-up
  • 优化器:adam optimizer
  • 初始学习率:3e-4,最后一个epoch降为初始的0.12
  • 输入图片比较大(1536*1536),batch size为2

4.3 细微调整文章来源地址https://www.toymoban.com/news/detail-442554.html

  • 对部分极小的标签(小于3个像素)使用灰色方框进行遮挡。准确率提高0.2%。【tph-yolov5】论文简读参考连接:https://blog.csdn.net/wxd1233/article/details/120171037

到了这里,关于【tph-yolov5】论文简读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【YOLOv9】完胜V8的SOTA模型Yolov9(论文阅读笔记)

    官方论文地址:  论文地址点击即可跳转 官方代码地址:  GitCode - 开发者的代码家园                           官方代码地址点击即可跳转 当输入数据经过各层的特征提取和变换的时候,都会丢失一定的信息。针对这一问题: 论文中提出的 可编程梯度信息(P

    2024年04月12日
    浏览(36)
  • yolov7-论文深度解析

    yolov7自提出便号称在速度和精度方面超过了所有的目标检测器,并能够同时支持边缘设备到云端的移动GPU和GPU设备,而yolov7则具有以下优势: 1、更高的检测精度:相较于其前身 YOLOv5,YOLOv7 在保持速度优势的同时,通过改进骨干网络和特征融合方法等方式,进一步提升了检测

    2024年02月08日
    浏览(40)
  • YOLOV7详细解读(二)论文解读

    继美团发布YOLOV6之后,YOLO系列原作者也发布了YOLOV7。 YOLOV7主要的贡献在于: 1.模型重参数化 YOLOV7将模型重参数化引入到网络架构中,重参数化这一思想最早出现于REPVGG中。 2.标签分配策略 YOLOV7的标签分配策略采用的是YOLOV5的跨网格搜索,以及YOLOX的匹配策略。 3.ELAN高效网络

    2024年02月05日
    浏览(44)
  • CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列

    内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet的新框架,包括一个新的可逆残差网络(reversible residual network)和一个无偏线性变换模块,用于多功能风格转移。这个可逆残差网络不仅可以保留内容关联性

    2024年02月11日
    浏览(45)
  • yolov7论文学习——创新点解析、网络结构图

    1、提出了E-ELAN,但是只在yolov7-e6e中使用到。 2、yolov7基于拼接模型的缩放方法,在yolov7x中使用到。 3、将重参数化卷积应用到残差模块中或者用到基于拼接的模块中去。RepConvN 4、提出了两种新的标签分配方法 1、 ELAN yolov7使用大量的ELAN作为基础模块。 这么多堆叠其实对应了

    2024年01月17日
    浏览(47)
  • 【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md

    在嵌入式设备上部署卷积神经网络(CNNs)由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性,但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块,用于通过低成本操作生成更多的特征图。基于一组内在特征图,我们应用一

    2024年03月20日
    浏览(57)
  • 【YOLO系列】YOLOv3论文超详细解读(翻译 +学习笔记)

    YOLOv3(《Yolov3:An incremental improvement》)是Joseph Redmon大佬关于YOLO系列的最后一篇,由于他反对将YOLO用于军事和隐私窥探,2020年2月宣布停止更新YOLO。  YOLOv3在YOLOv2的基础上改良了网络的主干,利用多尺度特征图进行检测,改进了多个独立的Logistic regression分类器来取代softmax来

    2024年02月07日
    浏览(63)
  • 【YOLO系列】YOLOv7论文超详细解读(翻译 +学习笔记)

    终于读到传说中的YOLOv7了~≖‿≖✧ 这篇是在美团的v6出来不到一个月就高调登场,作者还是我们熟悉的AB大神(对,就是v4那个),读起来又是“熟悉”的感觉(贯穿了我的整个五一假期(╯-_-)╯╧╧)。 其实关于YOLOv7的网络结构还有很多细节值得深入研究,以及代码

    2024年02月02日
    浏览(75)
  • 【YOLO系列】YOLOv4论文超详细解读2(网络详解)

     上一篇我们一起读了YOLOv4的论文《YOLOv4:Optimal Speed and Accuracy of Object Detection》(直通车→【YOLO系列】YOLOv4论文超详细解读1(翻译 +学习笔记)),有了初步的印象,论文里面涉及到很多tricks,上一篇介绍的比较简略,我们这篇来详细介绍一下。 一、YOLOv4的简介  二、YO

    2024年02月02日
    浏览(45)
  • 【YOLO系列】YOLOv1论文超详细解读(翻译 +学习笔记)

    从这篇开始,我们将进入YOLO的学习。YOLO是目前比较流行的目标检测算法,速度快且结构简单,其他的目标检测算法如RCNN系列,以后有时间的话再介绍。 本文主要介绍的是YOLOV1,这是由以Joseph Redmon为首的大佬们于2015年提出的一种新的目标检测算法。它与之前的目标检测算法

    2024年02月04日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包