TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测

这篇具有很好参考价值的文章主要介绍了TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Query 初始化

Input-dependent

以往 Query 位置是随机生成或学习作为网络参数的,而与输入数据无关,因此需要额外的阶段(解码器层)来学习模型向真实对象中心移动的过程。
论文提出了一种基于center heatmap 的 input-dependent 初始化策略。(decoder :6 layers —> 1 layer)

给定一个 d d d 维的 LiDAR BEV 特征图 F L ∈ R X × Y × d F_L\in \R^{X \times Y \times d} FLRX×Y×d,首先预测一个 class-specific heatmap S ^ ∈ R X × Y × K \hat S \in \R^{X\times Y \times K} S^RX×Y×K X × Y X \times Y X×Y 表示 BEV 特征图的大小, K K K 是类别数量。
然后,将 heatMap 看作 X × Y × K X×Y×K X×Y×K 个候选对象,并选择所有类别的前 N N N 个候选对象作为初始对象 Queries。
选择局部最大值元素作为对象Queries:避免空间上过于封闭的Queries。这些元素的值大于或等于它们的 8连通 neighbors。
所选候选对象的位置和特征用于初始化Queries位置和Queries特征。
初始对象Queries将位于或接近潜在的对象中心,消除了需要多个解码器层来细化位置。

Category-aware

BEV平面上的物体都是绝对尺度的,同一类别之间的尺度差异很小。通过为每个 Query 配备 category embedding 来使对象 Queries 具有 Category-aware (类别感知性)。

使用每个选定的候选对象的类别,也就是说 S ^ i , j , k \hat S_{i,j,k} S^i,j,k 属于第 k k k 个类别。通过线性映射 one-hot category 向量 到一个 R d \R^d Rd 向量,来将 Query 特征和 category embedding 进行元素求和。

category embedding:
1.在对自我注意模块中的对象-对象关系和交叉注意模块中的对象-上下文关系进行建模中作为有用的辅助信息。
2.在预测时,可以传递有价值的对象先验知识,使网络关注类别内的方差,从而有利于属性预测。

Transformer Decoder 和 FFN

TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测
上图:左-用于初始边界框预测的 transformer decoder 层的架构。 右-用于图像融合的 transformer decoder 层的体系结构。

在对象 Queries 与 特征映射(点云或图像)的交叉注意力将相关的上下文信息,聚集到候选对象上,而对象 Queries 之间的自我注意则导致不同候选对象之间的成对关系。
将 Query 位置嵌入到 MLP 的 D D D 维位置编码中,并与 Query 特征进行元素求和。 这使得网络能够联合推理上下文和位置。
然后,通过前馈网络(FFN)将包含丰富实例信息的 N N N 个对象 Queries 独立的解码为边界框和类标签。
通过并行地将每个对象 Query 译码为预测,得到一组预测值 { b ^ t , p ^ t } t N \{\hat b_t,\hat p_t\}_t^N {b^t,p^t}tN 作为输出,其中 b ^ t \hat b_t b^t 是第 i i i 个 Query 的预测边界框, p ^ ∈ [ 0 , 1 ] K \hat p \in [0,1]^K p^[0,1]K K K K 个语义类 pre-class 概率。
采用了辅助译码机制,在每个decoder层后加入 FFN 和监督。因此,可以从第一个decoder层得到初始边界框。

LiDAR-Camera 融合

图像特征提取

点级融合融合质量在很大程度上受到激光雷达点稀疏性的限制。当一个物体只包含少量的激光雷达点时,它只能获取相同数量的图像特征,浪费了高分辨率图像丰富的语义信息。

论文不提取基于激光雷达点和图像像素之间的硬关联的多视图图像特征。保留所有图像特征 F C ∈ R N v × H × W × d F_C\in R^{N_v×H×W×d} FCRNv×H×W×d 作为 memory bank,并利用 transformer decoder 中的交叉注意机制,以稀疏到密集的自适应方式进行特征融合。
TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测在给定来自 convolutional backbones 的一个 LiDAR BEV 特征图和一个图像特征图的基础上,我们的基于 transformer 的检测头首先利用 LiDAR 信息将目标 queriers 解码为初始边界框预测,然后通过将目标 queries 与有用的图像特征集中融合,进行 LiDAR-camera 融合。

用于图像特征融合的SMCA(空间调制交叉注意)

为了降低带来的传感器标定敏感性和图像劣质特征对硬关联策略的影响,利用交叉关注机制建立了激光雷达与图像之间的软关联,使网络能够自适应地确定从图像中获取信息的位置和内容。

首先使用先前的预测和校准矩阵来识别对象 Queries 所在的特定图像,然后在对象 Queries 和相应的图像特征映射之间进行交叉注意。

然而,由于激光雷达特征和图像特征来自完全不同的领域,目标 Queries 可能涉及到与待预测边界框无关的视觉区域,导致网络需要很长的训练时间来准确识别图像上的正确区域。

SCMA:通过围绕每个 Query 的投影2D中心的2D圆形高斯 mask 来加权交叉注意。这个2D高斯权重 mask 与 Center-Net 的生成方式类似, M i , j = exp ⁡ ( − ( i − c x ) 2 + ( j − c y ) 2 σ r 2 ) M_{i,j}=\exp (-\frac{(i-c_x)^2+(j-c_y)^2}{\sigma r^2}) Mi,j=exp(σr2(icx)2+(jcy)2),其中 ( i , j ) (i,j) (i,j)是权重 mask M 的空间索引, ( c x , c y ) (c_x,c_y) (cx,cy) 是通过投影 Query 预测在图像平面的2D中心, r r r 是3D边界框的投影角点的最小外接圆半径, σ σ σ 是调制高斯分布带宽的超参数。。然后,这个权重图与所有注意力头之间的交叉注意力图进行基本相乘。这样,每个对象 Query 只关注投影二维框周围的相关区域,从而使网络能够更好更快地根据输入的激光雷达特征学习在哪里选择图像特征。
TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测上图:第一行显示输入图像和投影在图像上的对象 Query 预测,第二行显示交叉注意图。
该网络通常倾向于关注靠近目标中心的前景像素,而忽略不相关的像素,为目标分类和边界框回归提供有价值的语义信息。

在SMCA之后,使用另一个FFN使用包含激光雷达和图像信息的对象 Queries 来产生最终的边界框预测。

图像引导 Query 初始化

recall也叫召回率,记做R,表示你预测的结果中有多少正样本被正确检测出来,当R=100%的时候,表示没有漏检

仅使用激光雷达特征进行选择对象 Query ,可能导致在检测召回率方面存在亚优性。

为了进一步利用高分辨率图像检测小目标的能力,并使算法对稀疏的激光雷达点云更具鲁棒性,利用激光雷达和相机信息选择对象 Query 。

通过与激光雷达BEV特征 F L F_{L} FL 交叉关注,将图像特征 F C F_C FC 投影到BEV平面上,生成一个激光雷达-相机BEV特征 F L C F_{LC} FLC
TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测
使用沿高度轴折叠的 multiView 图像特征作为注意力机制的 key-value 序列。折叠操作基于观察到BEV位置与图像列之间的关系可以很容易地利用摄像机几何来建立,通常每个图像列上最多有一个物体。
因此,沿高度轴折叠可以在不丢失关键信息的情况下显著减少计算量。 虽然在这个过程中可能会丢失一些细粒度的图像特征,但它已经满足了需要:因为它只需要对潜在的目标位置进行提示。使用 F L C F_{LC} FLC来预测 heatmap,并用仅有激光雷达的 heatmap S ^ \hat S S^ 进行平均,作为最终的 heatmap S ^ L C \hat S_{LC} S^LC。利用 S ^ L C \hat S_{LC} S^LC 选择和初始化目标 Query ,模型就能够检测出激光雷达点云中难以检测的目标。文章来源地址https://www.toymoban.com/news/detail-503202.html

到了这里,关于TransFusion:利用 Transformer 进行鲁棒性融合来进行 3D 目标检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习鲁棒性笔记

    鲁棒性(Robustness)在统计学和数据分析中是一个重要的概念。它指的是某个统计方法或模型对于异常值或偏离数据集正常分布的情况的敏感程度。一个鲁棒性较好的方法能够在存在异常值或数据分布不符合假设的情况下依然给出可靠的结果,而不会被极端值影响太大。 鲁棒

    2024年02月14日
    浏览(34)
  • 脆弱性-鲁棒性-反脆弱性

    哈喽大家好,我是咸鱼   在开始本篇文章之前,我想先问小伙伴们一个问题:   每个人都渴望稳定且有序的生活,但如果一个人的生活过于稳定有秩序且可预测,会有什么不好的影响吗?   如果你每天做同样的事情,都按照同样的方式来度过,一旦出现不可预测的变故,你

    2024年02月16日
    浏览(33)
  • 图像鲁棒性--常见14种图像攻击matlab实现

    一、14种图像攻击 ( a )JPEG压缩。质量因子Q分别为10%、30%、50%、70%、90%。 ( b )高斯噪声。平均μ为0,方差σ分别为0.001、0.005和0.1。 ( c )椒盐噪音。平均μ为0,方差σ分别为0.001、0.005、0.1。 ( d )散斑噪声。平均μ为0,方差σ分别为0.01、0.05、0.1。 ( e )平均滤波。窗口大小分别为3

    2024年02月05日
    浏览(35)
  • 手机类目知识图谱的对抗学习与鲁棒性

    手机类目知识图谱的对抗学习与鲁棒性 作者:禅与计算机程序设计艺术 在电子商务行业,构建高质量的产品类目知识图谱对于提升搜索体验、推荐系统和供应链管理等关键业务至关重要。然而,由于类目信息的复杂性、动态性和噪声干扰,如何构建鲁棒、准确的知识图谱一直是

    2024年04月15日
    浏览(42)
  • 深度学习中的鲁棒性和泛化性有什么区别

    鲁棒性(Robustness)和泛化性(Generalization)是评估模型性能时常用的两个术语,尤其在机器学习和统计建模领域。虽然这两个概念相关,但它们关注的方面有所不同。 鲁棒性 鲁棒性指的是模型在面对输入数据的小幅变动或存在噪声时仍能保持性能不受显著影响的能力。一个

    2024年02月21日
    浏览(39)
  • 小成本大幅度增幅CNN鲁棒性,完美的结合GLCM+CNN

            本文以实验为导向,使用vgg16+GLCM实现一场精彩的新冠肺炎的分类识别,并且对比不加GLCM后的效果。在这之前,我们需要弄明白一些前缀知识和概念问题: GLCM (Gray-Level Co-occurrence Matrix),中文称为灰度共生矩阵,是一种用于图像纹理特征提取的统计方法。它是由

    2024年02月14日
    浏览(36)
  • 【从零开始数学建模(3)】敏感性和鲁棒性分析例

    敏感性与强健(鲁棒)性          灵敏度分析 是研究与分析一个系统(或模型)的状态或输出变化对系统参数或周围条件变化的敏感程度的方法。在最优化方法中经常利用灵敏度分析来研究原始数据不准确或发生变化时最优解的稳定性。通过灵敏度分析还可以决定哪些参

    2024年02月04日
    浏览(47)
  • MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性

      💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 ​ 主

    2024年02月10日
    浏览(48)
  • 用AI技术提高智能安防摄像头的鲁棒性和安全性

    作者:禅与计算机程序设计艺术 随着人工智能技术的飞速发展,智能安防摄像头作为其应用场景之一,得到了越来越广泛的应用。然而,智能安防摄像头在面临各种挑战时,如图像识别、目标检测、运动跟踪等,依然存在许多的鲁棒性和安全性问题。为了解决这些问题,本文

    2024年02月06日
    浏览(39)
  • 基于深度学习的多模态语音识别:如何提高语音识别准确率和鲁棒性

    作者:禅与计算机程序设计艺术 随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。传统的声学模型或手工特征工程方法已经无法满足实时、高精度、低延迟的需求,多模态语音识别需要解决

    2024年02月13日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包