【OpenMMLab AI实战营第二期】目标检测与MMDetection

这篇具有很好参考价值的文章主要介绍了【OpenMMLab AI实战营第二期】目标检测与MMDetection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目标检测

目标检测的基本范式

  • 划窗

  • 使用卷积实现密集预测

  • 锚框

  • 多尺度检测与FPN

单阶段&无锚框检测器选讲

  • RPN

  • YOLO、SSD

  • Focal Loss与RetinaNet

  • FCOS

  • YOLO系列选讲

什么是目标检测

目标检测:给定一张图片,用矩形框框出所有感兴趣物体同时预测物体类别

目标检测与图像分类区别

图像分类通常只有一个物体,位于图像中央,占据主要面积,目标检测中这些都不固定

单阶段目标检测算法

单阶段检测算法概述

单阶段算法直接通过密集预测产生检测框,相比于两阶段算法,模型结构简单、速度快、易于在设备上部署

早期由于主干网络、多尺度技术等相关技术不成熟,单阶段算法在性能上不如两阶段算法,但因为速度和简洁的优势仍受到工业界青睐

随着单阶段算法性能逐渐提升,成为目标检测的主流算法

RPN(Region Proposal Network)

RPN 初步删除图像中包含物体的物质,不预测具体类别

RPN算“半个检测器”,是二阶算法 Faster RCNN的第一阶段

RPN是基于密集预测的

YOLO(You Only Look Once)

是最早的单阶段检测器之一,激发了单阶段算法的研究潮流

主干网络:自行设计的DarkNet结构,产生771024维的特征图

检测头:2层全连接层产生77组预测结果,对应77个空间位置上物体的类别和边界

YOLO的匹配与框编码

将原图切分成SS大小的格子,对应预测图上SS个位置

如果原图上某个物体中心位于某个格子内,则对应位置的预测值应给给出物体类别和边界框位置

其余位置应预测为背景类别,不关心边界框预测结果

优点:

速度快:在Pascal VOC数据集上,使用自己设计的DarkNet结构可以达到实时速度,使用相同的VGG可以达到3倍与Faster R-CNN的速度

缺点:

由于每个格子只能预测一个物体,因此对重叠物体,尤其是大量重叠的小物体容易产生漏检

直接回归边界框(无锚框)有难度,回归误差较大,YOLO V2开始使用锚框

SSD(Single Shot MultiBox Detector)

主干网络:使用VGG+额外卷积层,产生11级特征图

检测头:在6级特征图上进行密集预测,产生所有位置,不同尺度的预测结果

RetinaNet

特征生成:ResNet主管网络+FPN产生P3~P7共五级特征图,对应采样率8-128倍

多尺度锚框:每个特征图上设置3种尺寸*3种长宽比的锚框,覆盖82-813像素尺寸

密集预测头:两分支、5层卷积构成的检测头,针对每个锚框产生K个二类预测以及4个边界框偏移量

损失函数:Focal Loss

性能
【OpenMMLab AI实战营第二期】目标检测与MMDetection

单阶段算法面临的正负样本不均衡问题

单阶段算法共产生尺度数位置数锚框数个预测

而这些预测之中,只有少量锚框的真值为物体(正样本),大部分锚框的真值为背景(负样本)

使用类别不平衡的数据训练处的分类器倾向给出背景预测,导致漏检

朴素的分类损失不能驱动检测器在有限的能力下达到漏检和错检之间的平衡

YOLO V3

自定义的DarkNet-53主干网络和类FPN结构,产生1/8、1/16、1/32降采样率的3级特征图

在每级特征图上设置3个尺寸的锚框,锚框尺寸通过对真值狂聚类得到

两层卷积构成的密集检测头,在每个位置、针对每个锚框产生80个类别预测、4个边界框偏移量、1个objectness预测,每级特征图3*(80+4+1)=255通道的预测值

得益于相对轻巧的主干网络设计、YOLO V3的速度圆冠榆RetinaNet

YOLO V5

模型结构进一步改进、使用CSPNarkNet主干网络、PAFPN多尺度模块

训练时使用更多数据增强,如Mosaic、MixUP

使用自对抗训练技术(SAT)提高检测器的鲁棒性

无锚框目标检测算法

基于锚框

  • Faster R-CNN、YOLO V3/V5、RetinaNet都是基于锚框的检测算法

  • 模型基于特征预测对应位置中是否有物体,以及精确位置相对于锚框的偏移量

  • 实现复杂,需要手动设置锚框相关超参数(如大小、长宽比、数量等),设置不当影响检测精度

无锚框

  • 不依赖锚框,模型基于特征直接预测对应位置是否有物体以及边界框的位置
  • 边界框预测完全基于模型学习,不需要人工调整超参数

FOCS(Fully Convolutional One-Stage)

模型结构与RetinaNet基本相同:主干网络+FPN+两分支、5层卷积构成的密集预测头

预测目标不同:对于每个点位、预测类别、边界框位置和中心度三组数值

FCOS的预测目标&匹配规则

如果某个特征位于某个真值框的内部,且特征的层级与真值框的尺度匹配,则该特征对应正样本,应预测物体的

  • 类别概率

  • 边界框相对于该中心位置的偏移量

  • 中心度,对于衡量预测框的优劣

如果某个特征不位于真值框内部,或与真值框尺度不匹配、对应负样本,只需预测类别为背景

对比:Anchor-Based算法基于IOU匹配,通常Anchor需要预测与之交并比大于阈值的框

FCOS的多尺度匹配

Anchor-based算法根据锚框和真值框的IoU为锚框匹配真值框通常,锚框会匹配到同尺度的真值框,小物体由底层特征预测,大物体由高层特征图预测

问题:Anchor-free 算法没有锚框,真值框如何匹配到不同尺度?

匹配方案:每层特征图只负责预测特定大小的物体,例如右图中512像素以上的物体匹配到P7上

由于重叠的物体尺度通常不同,同一位置重叠的真值框会被分配到不同的特征层,从而避免同一个位置需要预测两个物体的情形

CenterNet

针对2D检测的算法,将传统检测算法中的“以框表示物体”变成“以中心点表示物体”,将2D检测建模为关键点检测和额外的回归任务,一个框架可以同时覆盖2D检测、3D检测、姿态估计等一系列任务。

YOLO X

以YOLO V3为基准模型改进的无锚框检测器

  • Decouple Head结构

  • 更多现代数据增强策略

  • SimOTA分配策略

  • 从小到大的一系列模型

SOTA的精度和速度文章来源地址https://www.toymoban.com/news/detail-475322.html

到了这里,关于【OpenMMLab AI实战营第二期】目标检测与MMDetection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【OpenMMLab】AI实战营第二期Day10:底层视觉与MMEditing

    本课程包含底层视觉和MMEditing两个部分。第一部分介绍图像超分、深度学习和网络训练的相关算法,第二部分介绍超像素卷积、无监督学习、卷积网络和空间注意机制,以及这些算法在视觉框架中的实践应用。 📷介绍计算机视觉里面一个重要的问题:图像超分辨率以及相关

    2024年02月09日
    浏览(41)
  • OpenMMLab-AI实战营第二期——5-1.语义分割与MMSegmentation

    视频链接:语义分割与MMSegmentation 好的教程:超详细!手把手带你轻松用 MMSegmentation 跑语义分割数据集 以及:超详细!带你轻松掌握 MMSegmentation 整体构建流程 案例代码:https://github.com/TommyZihao/MMSegmentation_Tutorials 2.1.1 按颜色 最简单的思路:按照颜色聚类,基于同一物体颜色

    2024年02月09日
    浏览(39)
  • OpenMMLab-AI实战营第二期——6-2.玩转AIGC神器MMagic

    视频链接:玩转AIGC神器MMagic 代码教程:https://github.com/TommyZihao/MMagic_Tutorials Stable Diffusion的文生图,以及controlnet和dreamboost的图生图(输入一个图像+文字描述,输出另一张图像) 在2022年以前,这种技术是无法想象的,像magic一样,所以这个库就叫mmagic 1. Stable Diffusion和Midjour

    2024年02月10日
    浏览(60)
  • AI实战营第二期——第一次作业:基于RTMPose的耳朵穴位关键点检测

    根据中医的“倒置胎儿”学说,耳朵的穴位反映了人体全身脏器的健康,耳穴按摩可以缓解失眠多梦、内分泌失调等疾病。耳朵面积较小,但穴位密集,涉及耳舟、耳轮、三角窝、耳甲艇、对耳轮等三维轮廓,普通人难以精准定位耳朵穴位。 Labelme标注关键点检测数据集(子

    2024年02月08日
    浏览(44)
  • MMPose(openmmlab AI实战营二期第一节)

    链接:人体关键点检测与MMPose_哔哩哔哩_bilibili 赶了个进度,实际上没听到,一个方向被浓缩成50分钟是有点难度。后续有需要再回顾吧 人体姿态估计:识别人体关键点坐标。模式识别任务,难点是始终在变化。以关键点连线,2/3D中还原人体姿态。PoseC3D:基于人体姿态识别行

    2024年02月07日
    浏览(38)
  • AI实战营第二期 第十节 《MMagic 代码课》——笔记11

    MMagic (Multimodal Advanced, Generative, and Intelligent Creation) 是一个供专业人工智能研究人员和机器学习工程师去处理、编辑和生成图像与视频的开源 AIGC 工具箱。 MMagic 允许研究人员和工程师使用最先进的预训练模型,并且可以轻松训练和开发新的定制模型。 MMagic 支持各种基础生成

    2024年02月14日
    浏览(42)
  • AI实战营第二期 第六节 《MMDetection代码课》——笔记7

    MMDetection 是被广泛使用的检测工具箱,包括了目标检侧、实例分割、全景分割等多个通用检测方向,并支持了 75+ 个主流和前沿模型, 为用户提供超过 440+ 个预训练模型, 在学术研究和工业落地中拥有广泛应用。该恇架的主要特点为: 模块化设计。MMDetection 将检测框架解耦成不

    2024年02月08日
    浏览(51)
  • AI实战营第二期 第七节 《语义分割与MMSegmentation》——笔记8

    MMSegmentation 是一个基于 PyTorch 的语义分割开源工具箱。它是 OpenMMLab 项目的一部分。 main 分支代码目前支持 PyTorch 1.6 以上的版本。 代码链接:https://gitee.com/open-mmlab/mmsegmentation 统一的基准平台。我们将各种各样的语义分割算法集成到了一个统一的工具箱,进行基准测试。 模块

    2024年02月08日
    浏览(39)
  • AI实战营第二期 第九节 《底层视觉与MMEditing》——笔记10

    本节内容 : 图像超分辨率 Super Resolution 基于卷积网络的模型 SRCNN 与 FSRCNN 损失函数 对抗生成网络 GAN 简介 基于 GAN 的模型 SRGAN 与 ESRGAN 视频超分辨率介绍 实践 MMEditing 1 图像超分辨率 : 根据从低分辨率图像重构高分辨率图像 。 将图像放大,变清晰 提高图像的分辨率 高分图像

    2024年02月09日
    浏览(32)
  • 【OpenMMLab AI实战营二期笔记】第十一天 玩转AIGC神器MMagic代码教程

    1.1 安装Pytorch 1.2 安装MMCV、MMEngine环境 1.3 安装MMagic 方式一: 方式二:源码安装 1.4检查安装成功 1.5 安装其他工具包 2.1 进入 MMagic 主目录 2.2下载样例图片 2.3 运行预测 3.1 导入工具包 3.2 载入模型 3.3 指定Prompt文本 3.4 预测 4.1 进入 MMagic 主目录 4.2 在数据集上训练Dreambooth 4.3 用

    2024年02月10日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包