3D-SPS论文阅读

这篇具有很好参考价值的文章主要介绍了3D-SPS论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

VG:输入点云(包含3D坐标、RGB、法向量等信息)通过W个label得到的文本描述D,基于与物体相关的语言描述来完成目标的定位。

习惯上先看abstract和conclusion还有图表,看下来主要针对于两个模块:

首先先提取它的点云特征(用backbone得到点云种子)-->DKS粗略找到描述的物体的点 --> 

TPM精细选择目标keypoint -->  选取置信度最高的keypoint来回归检测框。

在进入该篇论文解读之前,作者先引出现阶段研究很多基于two stage[更多集中工作于二阶段]:

1.detection:传统的3D目标检测器去生成一堆的proposal。

2.matching:将描述的物体与proposal相匹配。 

一、motivation

1.twosatge在选择proposal上不好,如图所示,(a)sparse容易漏检,(b)dense会造成proposal太多太复杂而难以区分优化。(其实这个说法在二维的目标检测中也很常见)

2.two stage的一阶段常使用的FPS的采样是和语言无关的,而是覆盖整个场景中较多的物体,从而目标采样点所占比例也相对较小了,不利于预测。但VG本身只是关注于想要的目标,两个任务是分离的所以不明智。

总的来说就是以往用的two stage是先检测后匹配,而在匹配阶段中没有利用语言上下文来专注特定关键点--> 单阶段并且用文本来指导筛选关键点

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

二、innovation:

single stage 3D VG:弥补检测和匹配的gap,简单来说就是把问题变成找到关键点,根据置信度直接回归得到预测框的单阶段问题,任务中心在于关键点的选择。

1.DKS:基于文本对关键点进行粗略采样

2.TPM精细挖掘跨模态信息,找到检测目标

【跟人识别物体一样,根据文本粗略的选择一些候选集,然后再精细判断所需目标对象】

三、architecture

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(1)backbone抽出点云特征得到Pseed; 上面用language encoder得到文本描述的的特征L0

(2)Pseed和L0输入DKS中得到跟描述有关的所有关键点P0

(3)文本特征L0和关键点P0输入TPM(多层跨模态的transformer)中??

(4)得到Pt和Lt后放入MLP中算置信度S

(5)最后根据置信度再对应关键点进行回归得到目标物体的预测框。


接下来详细介绍一下DKS、TPM

1.DKS(Description-aware Keypoint Sampling):

innovation:就是前面提到的二阶段中的检测是检测全局物体,因此两阶段任务其实是分离的。作者提出直接利用词特征粗略筛选文本相关的关键点。

(1)将seed输入MLP得到S0来筛选topK0个有物体的关键点Pobj,可以看到图去掉了灰色的no-object的点。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(2)[蓝色部分]word feature经过Maxpooling后进入MLP得到置信度Sd,筛选TopK个得到下标,通过下标在Pobj去选取,可以看到删去了橘色的表示与词无关的点,只得到和词特征相关的关键点。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

经过以上两步后得到的P0的信息就不仅仅是目标对象,还包含与目标对象有关的信息(可以用来指导选出最终的target)。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

2.TPM(Target-oriented Progressive Mining)

逐层丢掉和目标无关的关键点

1.

(1)keypoint自注意力[深蓝色框],可以改善point的feature并且利用其空间特征

(2)keypoint的cross-attention[紫红色框],这一步还蛮巧妙的,将之前与文本无关的点也放进来作为K/V(就是在DKS之前的Pseed),这样就有了全局特征【如果只有与文本有关的关键点,那么"in the center/corner of room"这种方位信息很难定位,因为没有全局特征】

2.language的self-attention[浅蓝色框],结合上下文信息。

3.language和keypoint跨模态的cross-attention:language分支帮助keypoint找到target;keyponit分支帮助language更好的去理解融合场景信息。

4.交叉注意力图:表示关键点对目标a的重要性,做平均池化?后选择topk个关键点

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

四、LOSS

1.LVG:最主要的损失,训练阶段用target来监督Pt中的Sr,推理阶段用Pt中SR最高的来回归检测框,置为1

2.LDKS:

3.Det:算是辅助损失,由cls、obj、center、box的损失构成(就是目标检测用到的常规损失),当然这里训练时时TMP的multi,推理时是Sr中的top。

4.Llang:也是辅助损失,每一层TMP得到的language feature中多类别和target做loss。

Global Loss

L = α1LVG + α2LDKS +α3LDet + α4Llang

五、实验

1、experience

(1)Scanrefer

可以看到不管是在3D还是2D+3Dacc都提点,但是其中TGNN和instanceRefer用的是分割,所以在acc@0.5中instanceRefer更高。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(2)Nur3D& Sur3D

+2.3     +4.7

查一下这个languageRefer

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(3)analysis

 另外作者也给了以twostage为baseline的对比,感觉可以用来解释为什么3D-SPS效果更好:如图(a),twosatge随keypoint的增加acc先增加后下降,而3D-SPS随keypoint增加而增加;由(b)也知,是因为3D-SPS的target在采样点中的比例随keypoint增加而增加,有利于更好的检测target,accjiu增加了。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

2、Ablation

(1)探究DKS采样策略

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(2)探究TMP的layer

文章中解释K>4可能会丢掉一些target的keypoint,导致漏掉了最好的box??

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(3)探究TMP渐进关键点的选择3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

【分析】w/o就是只有跨模态的self/cross attention,没有keypoint的进一步选择(即下面的红框部分),所以keypoint的数量是没有减少的;由table5可以看出,在没有TPM渐进选择下随keypoint增多acc先升高后下降[这个是因为target的点比例降低];有TMP渐进选择可以让acc升高。

 3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

3、可视化效果

(1)3D-SPS先关注文本相关点,后选择target点;而Two-stage采样点覆盖整个场景,检测和匹配分离,导致最后框错目标。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

(2)第二个可视化算是对上一个可视化的进一步解释,即3D-SPS在筛选描述相关的keypoint的表现,可以看上面,左边有提到windows于是Po关注在tavble和windows,右边没有提window,就没有关注windows了;下面的shelf也是同理。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d



BASIC

一、数据集

1、Nr3D&Ns3D【基于Scannet,一个真实世界的3D场景数据集,有语义标注】:将语言和几何信息(以3D点云的形式)结合起来,即描述以object的语言文本,在3D场景中识别target

参考Sr3D & Nr3D

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d

二、FPS最远点采样:

有一篇解释的很好的博客链接,指路:通俗易懂地解释FPS

让采样点尽可能地覆盖整个场景

通俗来讲就是先随机选一个点P0 --> 算P0和其他点的欧氏距离,选择距离最远的点为P1  --> 分别算剩下的点和P0、P1的距离,选小的值来代表该点到P1、P2的距离 --> 然后选择距离最大的... 重复后两步以此类推,得到的就是较离散、覆盖较全面的点集。

3D-SPS论文阅读,Paper,论文阅读,深度学习,3d文章来源地址https://www.toymoban.com/news/detail-811818.html

到了这里,关于3D-SPS论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Cylinder3D论文阅读

    Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation(2020年论文) 作者:香港中文大学 论文链接:https://arxiv.org/pdf/2011.10033.pdf 代码链接:https://github.com/xinge008/Cylinder3D 为什么做这件事(why): ● 目前用于自动驾驶场景的最好的点云分割算法常见的做法是将3D点云投射

    2024年01月16日
    浏览(35)
  • 【论文阅读】CubeSLAM: Monocular 3D Object SLAM

    这一部分是论文中最难理解的一章,作者的主要想法,是利用2d图像来生成3d的目标包围框(bounding box),一方面这个思路本身就不是很好懂,另一方面,作者写这一章还是用的倒叙,显得更难理解了。 3d包围框的定义 对于本文的3d包围框,需要使用九个量来定义,可以分为三

    2024年02月07日
    浏览(27)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(82)
  • [论文阅读]MV3D——用于自动驾驶的多视角3D目标检测网络

    Multi-View 3D Object Detection Network for Autonomous Driving 用于自动驾驶的多视角3D目标检测网络 论文网址:MV3D 这篇论文提出了一个多视角3D目标检测网络(MV3D),用于自动驾驶场景下高精度的3D目标检测。主要的创新点有: 提出了一种紧凑的多视角表示方法来编码稀疏的3D点云数据。该方法

    2024年02月08日
    浏览(39)
  • 论文阅读《Hierarchical Aggregation for 3D Instance Segmentation》

    Hierarchical Aggregation for 3D Instance Segmentation是一个用于实例分割的方法,他主要利用了点以及点集之间的空间关系,以此进行实例分割。大概步骤如下: 首先进行低带宽点汇集得到初步的实例以避免过度分割 之后进行动态带宽集合汇集以得到完整的实例 引入实例内网络进行去

    2024年02月04日
    浏览(32)
  • 【论文阅读】【3d目标检测】Embracing Single Stride 3D Object Detector with Sparse Transformer

    论文标题:Embracing Single Stride 3D Object Detector with Sparse Transformer 源码地址:https://github.com/TuSimple/SST CVPR2022 文章写得很好! 文章从2d 3d目标检测目标的尺寸的不同入手,在2d目标检测中确实由于图像近大远小的尺寸关系 存在着图像中物体尺寸长尾的问题: 如coco数据集中,大小

    2023年04月15日
    浏览(31)
  • 【论文阅读】通过3D和2D网络的交叉示教实现稀疏标注的3D医学图像分割(CVPR2023)

    论文:3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks 代码:https://github.com/hengcai-nju/3d2dct 问题1 :医学图像分割通常需要大量且精确标注的数据集。但是获取像素级标注是一项劳动密集型的任务,需要领域专家付出巨大的努力,这使得在实际临床场

    2024年02月05日
    浏览(35)
  • [论文阅读]PillarNeXt——基于LiDAR点云的3D目标检测网络设计

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR点云的3D目标检测网络设计 论文网址:PillarNeXt 代码:PillarNeXt 这篇论文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷达点云3D目标检测的网络设计。主要的贡献

    2024年02月08日
    浏览(28)
  • 《论文阅读07》Segment Anything in 3D with NeRFs

    研究领域:图像分割(3D) 论文:Segment Anything in 3D with NeRFs Submitted on 24 Apr 2023 (v1), last revised 1 Jun 2023 (this version, v3) Computer Vision and Pattern Recognition (cs.CV) nvos数据集 论文链接 使用NeRFs在3D中分割任何内容 摘要 最近,Segment Anything Model(SAM)作为一种强大的视觉基础模型出现,它能

    2024年02月16日
    浏览(29)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包