FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

这篇具有很好参考价值的文章主要介绍了FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Paper name

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

Paper Reading Note

URL: https://arxiv.org/pdf/2104.10956.pdf

TL;DR

  • 基于 Fcos 改进的 3d 检测方案,在 NeurIPS 2020 的 nuScenes 3d 检测比赛上取得了第一名成绩

Introduction

  • Fcos3d 方案
    • 将 7-DoF 3D 目标解耦为 2D 和 3D 的属性
    • 考虑对象的二维比例,将对象分布到不同的特征级别,并仅根据训练过程的投影三维中心进行分配
    • center-ness 根据三维中心重新定义为二维高斯分布,以适应三维目标公式

Dataset/Algorithm/Model/Experiment Detail

实现方式

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

  • Backbone: 使用 resnet101,固定第一层的卷积参数从而减少显存消耗
  • FPN: 生成特征层 P3-P7,每个特征层用于检测不同尺度的目标
  • Detection Head:包含4个共享参数的卷积层和 small heads 用于不同的 targets 预测;回归分支需要较高的解耦程度,即每个子 targets 都设置一个 heads,所有回归的目标如上图所示

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
fcos3d 设计了一种新的旋转编码方案,即将360°角度回归解耦为方向的二分类和180°角度回归,在角度正确性上超过了 CenterNet

  • loss 设计

    • 分类使用 focal loss
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
    • 回归基本上使用 smoothL1 loss,方向分类和 center-ness 使用 binary cross entropy 损失
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
    • 总损失
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
  • center-ness loss 设计

    • 因为这里回归的是 3d 中心点,所以如下所示使用以 3D 中心投影点为远点的 2D 高斯分布作为 center-ness 的目标,然后再以此为真值计算 BCE loss
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
  • 测试阶段

    • class score 和 center-ness 相乘作为预测的置信度,然后在 bird view 中进行 rotated NMS 得到最终的的结果
  • 训练的样本分配问题

    • gt 的分配基本和 fcos 一样,将 3D 的gt框投影到2D平面上,取最大外接矩形作为 2D gt 框
    • 之前 fcos 使用 area-based 方法解决正样本分配的歧义性问题,即当两个样本都符合要求时选尺寸小的样本;作为认为这种方式对大目标不友好,提出了一种新的 dist-based 方案提升了精度,即挑选与中心更近的样本
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
    • 除了上面的样本分配方法,还提出了一种基于 3d-center 来确定正样本的方法,即只有和中心点距离小于 1.5xstride 的样本算作正样本
    • 对每个回归分支的结果增加一个 scale 变换能涨点,该 scale 参数设置为网络可学习

实验结果

评测指标
  • 使用在地平面上的 2D center 与 gt 的距离作为 threshold,避免使用 IoU 作为 threshold 对物体size 和朝向敏感的问题
    FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
    其中 C 代表所有类别,D代表4个距离阈值: 0.5m,1m,2m,4m
  • True Positive metrics
    • Average Translation Error (ATE): 2d 下的中心距离差距 (m)
    • Average Scale Error (ASE): 1-IoU,IoU为对齐 translation 和 orientation 后计算的值
    • Average Orientation Error (AOE):smallest yaw angle difference(radians)
    • Average Velocity Error (AVE): 速度差异的 L2-Norm (m/s)
    • Average Attribute Error (AAE):1−acc,其中 acc 指代属性分类准确度
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
  • NuScenes Detection Score(NDS)
    • NuScenes 官方提供的更全面的指标
      FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
对比精度

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

消融实验
  • 看一看出depth loss、dist-based target assign,Stronger backbone,DCN,Finetune w/ depth weight=1.0 是涨点程度较大的技巧
    FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
可视化

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection文章来源地址https://www.toymoban.com/news/detail-405267.html

Thoughts

  • 部分比赛用的涨点 trick 还是很实用的,一些 fcos 的结构也对 3d 检测任务进行了适配,思想值得借鉴

到了这里,关于FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • mmdetection3d-之(三)--FCOS3d训练waymo数据集

    本内容分为两部分 1. waymo数据集转KITTI格式 2. FCOS3D训练KITTI格式的waymo数据集 1.1.1 waymo数据集下载 waymo数据集v1.2.0可以从这里下载。其中,train(32个压缩包),test(8个压缩包),val(8个压缩包)。这里的文件都是压缩包,每个都有20个G左右。 如果不想下载压缩包,可以下载

    2024年01月16日
    浏览(38)
  • mmdetection3d-之(一)--FCOS3d训练nuscenes-mini数据集

    参考网上的博客,出现各种错误,最大的是: AssertionError: Samples in split doesn\\\'t match samples in predictions. 给了解决方案,也不知道那个数字是怎么来的。索性自己来一遍,参考了github issue。   第一步,下载数据集并解压: 第二步,修改代码 tools/create_data.py   第三步,制作数据

    2024年02月15日
    浏览(32)
  • 自动驾驶 2D 单目\双目\多目视觉方法 一(Pseudo-LiDAR,Mono3D,FCOS3D,PSMNet)

    自动驾驶中必不可少的3D场景感知。因为深度信息、目标三维尺寸等在2D感知中是无法获得的,而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。想得到3D信息,最直接的方法就是采用激光雷达(LiDAR)。但是,LiDAR也有其缺点,比如成本较高,车规级产品量产困难

    2024年02月02日
    浏览(30)
  • BiFPN,one-stage,two-stage

    目录 BiFPN 语义信息 单stage物体检测算法 双stage skip connection,low-level feature,high level-feature,top-dowm path  backbone通常分为几个stage efficiendet 完整代码链接+UI界面         BiFPN是双向特征金字塔网络的缩写,是计算机视觉中用于目标检测和分割任务的一种神经网络架构。      

    2024年02月08日
    浏览(40)
  • OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

    地址:https://arxiv.org/pdf/2207.02255.pdf 1. 摘要     OSFormer为基于transformer的伪装实例分割(CIS)框架,有两个关键设计,首先是位置敏感transformer(LST),通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数;第二,开发粗糙到精细融合模块(CFF)合并来

    2024年02月12日
    浏览(44)
  • 【AI面试】目标检测中one-stage、two-stage算法的内容和优缺点对比汇总

    在深度学习领域中,图像分类,目标检测和目标分割是三个相对来说较为基础的任务了。再加上图像生成(GAN,VAE,扩散模型),keypoints关键点检测等等,基本上涵盖了图像领域大部分场景了。 尤其是在目标检测,一直是各大比赛 (Pascal VOC, COCO, ImageNet) 的主要任务。与此

    2024年02月12日
    浏览(30)
  • TOOD Task-aligned One-stage Object Detection 论文学习

    目标检测通过多任务学习的方式,协同优化目标的分类和定位。分类任务会学习目标的判别特征,关注于目标的显著性或关键区域,而定位任务则学习准确地定位目标的边界。因为定位和分类的学习机制不同,这俩任务学到的特征分布也不同。当这两个分支做预测时,会产生

    2024年02月15日
    浏览(26)
  • 【半监督学习】5、Efficient Teacher | 专为 one-stage anchor-based 方法设计的半监督目标检测方法

    论文:Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 出处:阿里 时间:2023.03 目标检测近年来的进展离不开大量的标注数据,但数据标识昂贵且耗时。 故此,半监督方法被提出,通过自动生成伪标签来利用大量的未标注数据。 目前的半监督学习有如下三个最重要的挑战:

    2024年02月05日
    浏览(50)
  • 论文阅读——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    本文试图从原理和代码简单介绍低照度增强领域中比较新的一篇论文——Retinexformer,其效果不错,刷新了十三大暗光增强效果榜单。 ❗ 论文名称 :Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement 👀 论文信息 :由清华大学联合维尔兹堡大学和苏黎世联邦理工

    2024年01月18日
    浏览(38)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读

    论文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代码:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/会议:WACV 2023 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处

    2024年02月10日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包