DSGN: Deep Stereo Geometry Network for 3D Object Detection---基于双目视觉的3D目标检测(1)

这篇具有很好参考价值的文章主要介绍了DSGN: Deep Stereo Geometry Network for 3D Object Detection---基于双目视觉的3D目标检测(1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

主要工作

  1. 为了弥合2D图像和3D空间之间的差距,在平面扫描体中建立立体对应关系,然后将其转换为3DGV(3D geometric volume),以便能够对3D几何体和语义线索进行编码,并能在世界坐标系中进行目标检测。
  2. 设计了一条端到端的pipeline,用于提取像素级特征以进行立体匹配,并提取高级特征以进行对象识别。所提出的网络联合估计场景深度目标检测,实现了许多实际应用。

3DGV:

3DGV定义在世界坐标系中,由构造在相机截锥中的平面扫描体(PSV)转换而来。在PSV中可以很好地学习像素对应约束进行深度估计,而真实世界目标目标检测可以在3DGV学习。该结构体是完全可微的,因此可以联合优化学习立体匹配和目标检测。

方法论

主要就是对3D空间中表达形式的探索

动机

相机得到的透视图有两个缺陷:

  1. 近大远小,但是同一类目标也有大有小,用此估计深度不可靠。
  2. 透视缩短的视觉效果导致附近的3D对象在图像中缩放不均匀。一辆规则的长方体汽车看起来像一个不规则的截头体。

而在3D世界中可以规避这些问题,两种常见的3D表示:

  1. 基于点的表示:

    通过深度预测方法生成点云的中间3D结构,并应用基于激光雷达的3D对象检测器。主要可能的缺点是涉及几个独立的网络,可能在中间转换过程中丢失信息。而且这种表示经常在物体边缘附近遇到条纹伪影。

  2. 基于体素的表示

  3. 本论文的方法:建立有效3D表示的关键取决于对3D空间的精确3D几何信息进行编码的能力。立体相机为计算深度提供了明确的像素对应约束

    为了设计一个统一的网络来利用这一约束,文章探索了能够提取立体对应的像素级特征和语义线索的高级特征的深层架构。

    另一方面,假设像素对应约束沿着穿过每个像素的投影射线施加,根据三角测量原理,其中深度被认为是确定的。为此,我们从双目图像对创建一个平面扫描体( plane-sweep volume),以学习相机视锥中的立体对应约束,然后将其转换为3D空间中的3D物体。在这个三维体积中,从平面扫描体中提取了三维几何信息,我们能够很好地学习真实世界对象的三维特征。

DSGN

DSGN以双目图像对(IL,IR)为输入,通过Siamese网络提取特征并构建plane-sweep volume(PSV)。在volume中学习像素对应关系。通过相机参数,我们将PSV转换为3D几何体(3DGV),以在3D世界空间中建立3D几何体。然后,就是利用3D神经网络在3DGV中进行3D目标检测。

整个神经网络由四个部分组成。

  • (a) 用于捕获像素和高级特征的2D图像特征提取器。
  • (b) 构建平面扫描体PSV和三维几何体3DGSV。
  • (c) 基于平面扫描体(PSV)的深度估计。
  • (d) 基于三维几何体(3DGV)的三维目标检测。

双目3d目标检测,双目视觉,人工智能

(a)图像特征提取

采用了PSMNet的主要设计,并进行了一些修改,详细修改可看代码。

(b)构造3DGV

首先通过将Plane-Sweep Volume变形到三维规则空间来创建一个三维几何体(3DGV)。在不丧失一般性的前提下,我们将三维世界空间中感兴趣的区域离散为一个三维体素占用网格(Wv、Hv、Dv),网格沿相机视图的右、下、前方向分布。Wv、Hv、Dv 分别表示栅格的宽度、高度和长度。每个体素的大小 (Vw, Vh, Vd)。

Plane-Sweep Volume

在双目视觉中,使用图像对(IL,IR)来构建一个基于视差的cost volume用于计算匹配成本,该匹配成本将左图像中的像素i与水平偏移了视差d的右图像IR中的对应像素相匹配。深度与视差成反比。因此很远的距离很难区分物体间距离,因为二者的视差很难区分。

在构建PSV时,遵循了经典的plane sweeping,PSV是通过在左相机截头体中以等距深度(蓝色虚线)投影图像来构建的,在这个volume上应用3D卷积,然后在所有深度位置上得到关于匹配的cost volume。

补充:构建PSV方法是右图映射到了一个参考图像(左图)的视锥里的不同深度平面,强调是视锥,怎么实现呢?论文没说,代码我还没看,我的理解是右图先单应变换到参考图像(左图)的对应3D空间里每个深度(假设m个深度间隔)参考面,然后这些映射后的m个图再纷纷透射到参考图像(左图)与其各个像素点对应,这样就有了m个组合,每个组合左图的特征图都是一样的,而右图有所不同。(此处理解不知道是否正确,只是不理解为什么不直接映射到3D空间里构建PSV)

双目3d目标检测,双目视觉,人工智能

 3D Geometric Volume

PSV是在相机视锥构建的,汽车会有畸变,因此可以在对PSV计算匹配损失前将PSV的特征图从camera frustum space(u, v, d)转换到世界坐标系(x,y,z),其中fx、fy是水平焦距和垂直焦距。

双目3d目标检测,双目视觉,人工智能

 补充:这里的PSV到3DGV的转换我也有点疑惑,下面是原文,the last feature map of PSV中的last是什么意思啊?不知道他在构造psv时有咩有像经典plane sweeping那样,从后向前,如果前面深度的特征匹配得分更高,则以得分高的点进行更新,那说last我还能勉强理解,但这里似乎不是这样啊,因为说的是feature map。总不是我想复杂了,last就是时序上最后的意思?

双目3d目标检测,双目视觉,人工智能

 双目3d目标检测,双目视觉,人工智能

补充:此处也说了低成本的表示匹配的概率大,那么cost是如何构造的啊,傻缺,不写我咋知道,还有在他的主流程图中,四分之一下采样的图是如何上采样构造3DGV的啊?而且3DGV的构成来源有两处输入啊,还有一处直接来自特征图,二者怎么结合的啊,好晕 

Depth Regression on Plane-Sweep Cost Volume

为了在PSV上计算匹配成本,利用3D卷积对特征维降维得到1D cost Volume,Soft arg-min  被用来计算所有可能深度分布的概率σ(−Cd) 

双目3d目标检测,双目视觉,人工智能

 3D Object Detector on 3D Geometric Volume

采用了以往基于锚框的设置,并在3DGV上逐步下采样获得鸟瞰图F,在F的每个位置(x,z)上放了大小方向不同的初始化锚框,然后利用网络进行位置大小的回归预测。在样本进行分配时利用了一个距离定义,即锚框的八个角的距离:

双目3d目标检测,双目视觉,人工智能

 为了平衡正样本和负样本的比例,我们让距离ground truth最近的前N个锚框作为正样本,其中N=γ×k,k是鸟瞰图中地面真相框内的体素数。γ调整阳性样本的数量。

Multi-task Training

立体匹配网络和3D对象检测器网络以端到端的方式进行训练。3D对象检测器损失定义为:

双目3d目标检测,双目视觉,人工智能

 双目3d目标检测,双目视觉,人工智能

 ND is the number of pixels with ground-truth depth

 双目3d目标检测,双目视觉,人工智能

 Npos denotes the number of positive samples

双目3d目标检测,双目视觉,人工智能

 Fpos denotes all positive samples on bird’s eye view

在进行回归时采用了两种不同的regression targets(有无联合优化)

Separably optimizing box parameters:在进行行人和自行车损失 优化时用了这个

Jointly optimizing box corners:在其他目标都使用了联合优化

相关学习:

【A】讲述了单目视觉深度估计----DORN(64条消息) 三维视觉论文阅读:DORN2018单目深度估计_yanqs_whu的博客-CSDN博客_dorn网络【B】讲述了多视角图像进行三维重建---MVSNet

理解MVSnet_朽一的博客-CSDN博客_mvsnet

【C】三维重建算法-plane sweep,对平面扫描进行了详细的介绍

三维重建之平面扫描算法(Plane-sweeping)_小玄玄的博客-CSDN博客_plane sweep

【D】对于C中的公式对应变量看不懂时,看这篇论文,他的公式都是这里截取的

Real-Time Plane-Sweeping Stereo with Multiple Sweeping Directions

【E】该论文代码:github.com文章来源地址https://www.toymoban.com/news/detail-532535.html

到了这里,关于DSGN: Deep Stereo Geometry Network for 3D Object Detection---基于双目视觉的3D目标检测(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读——Large Selective Kernel Network for Remote Sensing Object Detection

    期刊 CVPR 年份 2023 论文地址 https://arxiv.org/pdf/2303.09030.pdf 代码地址 https://github.com/zcablii/LSKNet 遥感目标检测的大选择核网络 相对较少的工作考虑到强大的先验知识存在于遥感图像。航空图像通常是用高分辨率的鸟瞰图拍摄的。特别是,航拍图像中的大多数物体可能体积较小,

    2024年02月08日
    浏览(37)
  • 【论文阅读】LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

    这是南开大学在ICCV2023会议上新提出的旋转目标检测算法,基本原理就是通过一系列Depth-wise 卷积核和空间选择机制来动态调整目标的感受野,从而允许模型适应不同背景的目标检测。 论文地址:https://arxiv.org/pdf/2303.09030.pdf 代码地址(可以直接使用mmrotate框架实现):GitHub

    2024年02月07日
    浏览(32)
  • Channel-separation-based Network for Object Detection under Foggy Conditions

    现存的一些方法尝试恢复高质量图像,但这会增加网络复杂性并且丢失图像的潜在信息。在这项研究中,一个基于通道分离的检测网络被提出用来保存潜在信息。特别地,雾过滤器用于在图像处理期间执行修剪,以保持图像的潜在信息。通过把深层特征提取替换为一个即插即

    2024年01月18日
    浏览(23)
  • Training-Time-Friendly Network for Real-Time Object Detection 论文学习

    目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。 推理时间久的检测器一般依赖于复杂的

    2024年02月15日
    浏览(32)
  • 论文阅读——CRNet: Channel-Enhanced Remodeling-Based Network for Salient Object Detection in Optical

    这篇是老师发的,主要是用来解决遥感显著性检测的边缘问题 期刊 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING 年份 2023 论文地址 https://ieeexplore.ieee.org/abstract/document/10217013 代码地址 https://github.com/hilitteq/CRNet.git CRNet:一种基于网格增强重构的光学遥感图像显著目标检测网络 除了它

    2024年02月03日
    浏览(34)
  • 详解3D物体检测模型:Focal Sparse Convolutional Networks for 3D Object Detection

    用于3D目标检测的焦点稀疏卷积神经网络【CVPR2022】【3D检测】 本文介绍一篇新的 3D 物体检测模型: Focals Conv ,论文收录于 CVPR2022 。在 3D 检测任务中,点云或体素数据 不均匀地 分布在3维空间中, 不同位置的数据对物体检测的贡献是不同的 。然而目前主流的 3D 检测网络(

    2023年04月08日
    浏览(26)
  • 【3D目标检测】3D Object Detection from Images for Autonomous Driving: A Survey

    这是一篇22年的综述,介绍了3D目标检测中基于图像的检测算法。 背景: 基于图像的3D目标检测是一个病态的问题,因为我们要做的是从2D的输入中得到一个3D的结果。 相关性: 基于图像的3D目标检测通常会与很多任务,如2D目标检测、深度估计、立体匹配和基于点云的3D目标

    2024年02月08日
    浏览(35)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(31)
  • 论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

    Title: 深入研究单目 3D 物体检测的 输出表示 单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。 然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具

    2024年04月09日
    浏览(33)
  • 【目标检测论文阅读笔记】FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection

             由于其固有的特性, 小目标在多次下采样后的特征表示较弱 ,甚至在背景中消失 。 FPN简单的特征拼接  没有充分利用多尺度信息 , 在信息传递中引入了不相关的上下文 ,进一步降低了小物体的检测性能 。为了解决上述问题,我们提出了简单但有效的 FE-YOLO

    2024年02月07日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包