LATR:3D Lane Detection from Monocular Images with Transformer

这篇具有很好参考价值的文章主要介绍了LATR:3D Lane Detection from Monocular Images with Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考代码:LATR

动机与主要工作:
之前的3D车道线检测算法使用诸如IPM投影、3D anchor加NMS后处理等操作处理车道线检测,但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求,anchor的方式需要一些如NMS的后处理辅助。这篇文章主要的贡献有两点:

  • 1)针对车道线的特性基于DETR目标检测算法提出了一种基于landline query的检测方法,为了使得query的初始化更合理借鉴了SparseInst方法从2D图像域中用不同实例来初始化query,并且建立车道线query的粒度不是车道线级别而是具体到了车道线上的点。
  • 2)用图像特征作为key和val是较难去学习其中的3D信息的,在相机内外参数已知情况下构建一个可学习的3D空间位置编码,通过decoder中多轮迭代和与图像特征融合预测残差方式,不断修正3D空间位置编码。

检测器的结构:
这篇文章的方法流程见下图所示:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习
可以从上图中看到backbone出来之后接一个车道线实例预测网络,由此实现lane query生成和初始化。对于图像特征使用3D信息嵌入的位置编码,只不过这个位置编码是在给定一个的初始化基础上修正而来的,也就是说在transformer解码的过程中这个位置编码的值是动态的。

车道线query构建:
这部分参考SparseInst中对于inst feature的构建过程,具体可以去查阅对应的论文,由此可以得到车道线query的特征表达 Q l a n e ∈ R N ∗ C Q_{lane}\in R^{N*C} QlaneRNC(这里是从特征图尺寸最大的那个特征上得到的)。而对于车道线来说,其是由多个点组成的,那么还需要对上面的点构建query,这里通过设定可学习的参数来实现 Q ∈ R M ∗ C Q_{}\in R^{M*C} QRMC。那么接下来就是使用broadcast机制实现最后车道线的query构建 Q ∈ R ( N ∗ M ) ∗ C Q\in R^{(N*M)*C} QR(NM)C

实例+点query的形式效果才是最好的:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习

图像feature的位置编码:
这里关注的是自动驾驶场景下的车道线,则根据车道线的分布特点可以为对应2D图像特征设置位置编码。这里的位置编码是首先在3D空间中进行采样(也就是文章定义的3D地平面),之后通过相机内外参数投影到图像中,以此来作为对应图像位置处的3D位置来源。只不过这里的3D地平面是动态更新的,在transformer的不同层中会预测不同的更新残差,定义的残差变量有旋转角度(偏航角) Δ θ \Delta \theta Δθ和平面高度 Δ h \Delta h Δh,其预测是通过一组FC层实现的:
[ Δ θ , Δ h ] = M L P ( A v g P o o l ( G [ X , M p ] ) ) [\Delta \theta,\Delta h]=MLP(AvgPool(\mathcal{G}[X,M_p])) [Δθ,Δh]=MLP(AvgPool(G[X,Mp]))
其中, G , X , M p \mathcal{G},X,M_p G,X,Mp分别代表2层卷机操作、图像特征、上一轮的地平面的位置编码。

则新一轮的平面点会使用下面的矩阵进行更新:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习

则在原本不准确的3D平面上就可以通过自适应回归的方式优化3D地平面,由此实现特征3D位置编码的优化。此外,地平面的约束还使用过车道线上的点投影建立起来
L p l a n e = ∑ u , v ∈ P ∩ L ∣ ∣ M p [ : , u , v ] − M l [ : , u , v ] ∣ ∣ 2 L_{plane}=\sum_{u,v\in \mathcal{P}\cap\mathcal{L}}||M_p[:,u,v]-M_l[:,u,v]||_2 Lplane=u,vPL∣∣Mp[:,u,v]Ml[:,u,v]2

最终的效果也就是使得下图中的绿色平面与红色的车道线接近。不过截止10.09.2023这部分的代码并没有开放出来。下图展示了地平面会随着迭代的进行收敛到实际车道线的位置上:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习
分析位置编码的作用,首先看位置编码带来的性能提升:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习

从上表可以看到位置编码确实能带来性能的提升,无论是视锥还是固定平面编码,只不过这里动态平面编码的方式更加适合车道线,因而相比起来有1个点的提升。这里说明准确的位置编码有助于得到更好的检测性能,而且文章提出的平面优化自由度只有2个,更多的维度是否能更好呢?

车道线query+位置编码两者对检测性能的影响:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习

对于后面车道线的解码部分就跟传统的DETR一致了,这里就不做展开。

不同数据集下的性能表现:
OpenLane validation:
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习
OpenLane不同天气条件下的表现
latr: 3d lane detection from monocular images with transformer,BEV Perception,# Lane Detection,3d,transformer,深度学习文章来源地址https://www.toymoban.com/news/detail-767737.html

到了这里,关于LATR:3D Lane Detection from Monocular Images with Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MonoDTR Monocular 3D Object Detection with Depth-Aware Transformer 论文学习

    论文链接:MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer 单目 3D 目标检测对于自动驾驶很重要,也很有挑战性。 现有的一些方法通过深度预测网络得到深度信息,然后辅助 3D 检测,这造成计算量激增,不适合实际部署。此外,如果深度先验不准确的话,也会影响算法

    2024年02月17日
    浏览(31)
  • DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。 长久以来 3D目标检测是一个挑战,并

    2024年02月16日
    浏览(34)
  • 【论文】LearningDepth from Single Monocular Images

    2005 NIPS 文章使用了Markov 随机场(Markov Random Fields, MRF) 从单图像上直接估计出图像的深度信息。 与RGBD输入数据不同的是,文章中采用了YCbCr数据+depth数据。 使用MRF是为了在一张图上融合局部和整体的信息。 作者为了提取出文本信息,使用了15种卷积和应用在YCbCr的Y通道(inte

    2024年02月02日
    浏览(26)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(29)
  • [论文笔记] CLRerNet: Improving Confidence of Lane Detection with LaneIoU

    Honda, Hiroto, and Yusuke Uchida. “CLRerNet: Improving Confidence of Lane Detection with LaneIoU.” arXiv preprint arXiv:2305.08366 (2023). 2023.05 出的一篇车道线检测的文章, 效果在CULane, CurveLanes SOTA 这篇论文在CLRNet基础上, 使用提出的LaneIoU代替CLRNet论文中LineIoU, 在两个数据集上取得了SOTA效果 论文其他部

    2024年02月15日
    浏览(31)
  • 论文笔记 - :MonoLSS: Learnable Sample Selection For Monocular 3D Detection

    以前的工作以启发式的方式使用特征来学习 3D 属性,没有考虑到不适当的特征可能会产生不利影响。 本文引入了样本选择,即只训练合适的样本来回归 3D 属性。 为了自适应地选择样本,我们提出了 可学习样本选择(LSS)模块 ,该模块基于 Gumbel-Softmax 和相对距离样本划分器

    2024年04月15日
    浏览(27)
  • 论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

    Title: 深入研究单目 3D 物体检测的 输出表示 单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。 然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具

    2024年04月09日
    浏览(33)
  • FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

    Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Reading Note URL: https://arxiv.org/pdf/2104.10956.pdf 基于 Fcos 改进的 3d 检测方案,在 NeurIPS 2020 的 nuScenes 3d 检测比赛上取得了第一名成绩 Fcos3d 方案 将 7-DoF 3D 目标解耦为 2D 和 3D 的属性 考虑对象的二维比例,将对象分布到

    2023年04月08日
    浏览(54)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(40)
  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

    单目目标检测在自动驾驶领域,一直是一个具有挑战的任务。现在大部分的方式都是沿用基于卷积的2D 检测器,首先检测物体中心,后通过中心附近的特征去预测3D属性。 但是仅仅通过局部的特征去预测3D特征是不高效的,且并没有考虑一些长距离的物体之间的深度关系,丢

    2024年02月09日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包