目标检测-One Stage-YOLOx

这篇具有很好参考价值的文章主要介绍了目标检测-One Stage-YOLOx。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

根据前文CenterNet、YOLOv4等可以看出学界和工业界都在积极探索使用各种tricks（anchor-free、各种组件、数据增强技术等等）来改进One Stage网络的表现，2021年旷视科技结合先进的改进技巧，产出了多种改进模型，在多种情况下达到速度和精度的SOTA。

值得一提的是，YOLOx使得YOLO系列回归到了anchor-free（YOLOv1是anchor-free的），后续YOLOv6、YOLOv8均为anchor-free算法，同时一些anchor-based算法也诞生了anchor-free版本，如YOLOv5u、YOLOv7u

提示：以下是本篇文章正文内容，下面内容可供参考

一、YOLOx的网络结构和流程

1.YOLOx的不同版本

YOLOx给出了以下版本：
（1）标准网络结构：Yolox-Darknet53、Yolox-s、Yolox-m、Yolox-l、Yolox-x。
（2）轻量级网络结构：Yolox-Nano、Yolox-Tiny

ps：

选择Yolov3_spp的改进版作为Yolov3 baseline，在此基础上添加各种trick，比如Decoupled Head、SimOTA等，得到了Yolox-Darknet53版本

以Yolov5的四个版本作为baseline，采用有效的trick，逐一进行改进，得到Yolox-s、Yolox-m、Yolox-l、Yolox-x四个版本

设计了Yolox-Nano、Yolox-Tiny轻量级网络，并测试了一些trick的适用性

2.Yolox-Darknet53

YOLOv3 baseline

采用了YOLOv3-SPP网络(在YOLOv3 backbone后面加入了SPP层)。
采用了新的训练策略：EMA权值更新、cosine学习率机制、IoU损失、IoU感知分支
数据增强：仅使用RandomHorizontalFlip（翻转）、ColorJitter（对比度、亮度等）、多尺度数据增强，移除了RandomResizedCrop（随机裁剪），因为发现其和planned mosaic augmentation功能上有重叠。

基于上述训练技巧，基线模型在COCO val上取得了38.5%AP指标

ps：和CenterNet不同的是，Yolox分为cls、reg以及obj分支，其中

cls代表分类任务，主要负责预测图像中物体的类别，使用BCE损失

reg代表回归任务，主要负责预测物体的位置和尺寸信息，使用IoU损失

obj代表目标存在性任务（IoU感知分支），即模型需要判断边框中是否存在目标物体（置信度），使用BCE损失

Yolox-Darknet53

Yolox-Darknet53在YOLOv3 baseline基础上再次采用了以下五种tricks：

Decoupled head：检测头由Head修改为Decoupled Head，提升了收敛速度和精度，但同时会增加复杂度
Strong data augmentation：使用了Mosaic和MixUp，同时在使用强大的数据增强后，发现ImageNet预训练不再有益，因此从头开始训练所有模型
Anchor-free：类似CenterNet的思想
Multi positives：类似CenterNet的anchor-free仅为每个对象选择一个正样本（中心位置），同时忽略其他高质量预测，然而，优化这些高质量的预测也可以带来有益的梯度，缓解训练期间正/负采样的极端不平衡，因此YOLOx将中心3×3区域都分配为正样本
SimOTA：一种标签匹配方法，标签分配是近年来目标检测领域的另一个重要进展。所谓标签匹配实质上就是将预测框和真实（gt）框进行匹配，简单做法是基于阈值，如IoU，但这种做法比较粗糙。

将精度推至47.3 AP
目标检测-One Stage-YOLOx,目标检测,目标检测,人工智能,计算机视觉,YOLO,深度学习

ps：YOLOv3-ultralytics是YOLOv3的最佳实践，采用了数据增强等tricks，具体改进看源码

SimOTA详解

ps：OTA来源于旷世科技另一篇文章《Ota: Optimal transport assignment for object detection》，SimOTA是OTA的简化，求近似解

SimOTA将标签匹配转换为运输问题，自动的去匹配输出和标记之间的关联，流程如下：

网络的输出为85*8400，也就是有8400个预选框，根据初步筛选规则得到1000个正样本预选框
- 规则1：寻找预选框中心点落在ground truth框范围的所有预选框
- 规则2：以ground truth框中心点为基准，设置边长为5的正方形，挑选在正方形内的预选框
假定有3个目标框，针对筛选出的1000个候选检测框，和3个ground truth框计算Loss函数
- 类别损失：pair_wise_cls_loss，维度：[3，1000]
- 位置损失：pair_wise_iou_loss，维度：[3，1000]
两个损失函数加权相加，得到总代价cost矩阵，维度：[3，1000]
设置候选框数量，假定设置为10，则会给每个目标框挑选10个iou最大的候选框，记录为topk_ious矩阵，则topk_ious的维度为[3，10]
将topk_ious按第2维求和取整，可以得到每个目标框应该分配的预选框数量

得到每个目标框应该分配的预选框数量后，具体的选择规则是根据cost矩阵，选择cost值最低的一些候选框

过滤共用的候选框：当同一个候选框对应多个目标框时，选择cost更小的候选框，即得到最终的匹配结果

以下是Yolox-Darknet53的网络结构，可以看出：

BackBone和Neck和Yolov3 baseline一致
Head变为了3个Decoupled head，每个Decoupled head都是Anchor-free的多分支形式（cls、obj、reg）

3.Yolox-s/Yolox-m/Yolox-l/Yolox-x

在对Yolov3 baseline进行不断优化，获得不错效果的基础上。作者又对Yolov5系列的Yolov5s、Yolov5m、Yolov5l、Yolov5x四个网络结构，也使用上述5个trick进行改进。

（1）输入端：在Mosa数据增强的基础上，增加了Mixup数据增强效果；
（2）Backbone：激活函数采用SiLU函数；
（3）Neck：激活函数采用SiLU函数；
（4）输出端：检测头改为Decoupled Head、采用anchor free、multi positives、SimOTA的方式。

以下是Yolox-s的网络结构图
目标检测-One Stage-YOLOx,目标检测,目标检测,人工智能,计算机视觉,YOLO,深度学习