论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

这篇具有很好参考价值的文章主要介绍了论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

摘要

Motivation

整体架构流程

技术细节

雷达和图像数据的同步

小结


论文地址: [2203.16258] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data (arxiv.org)

论文代码:GitHub - valeoai/SLidR: Official PyTorch implementation of "Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data"

摘要

    自动驾驶汽车的图像到雷达自我监督蒸馏。

    在自动驾驶中两项重要任务:分割或检测稀疏激光雷达点云目标(使车辆在3D环境中安全运行)。在3D语义分割或目标检测中,性能最好的方法依赖于大量带标注数据(注释3D激光雷达数据既复杂又昂贵)。 论文提出一种自监督预训练方法,适用于自动驾驶数据的3D感知模型。即,利用自动驾驶设备中同步和校准的图像和激光雷达传感器的可用性,将自监督的预训练图像表征蒸馏到3D模型中(不需要任何点云或图像标注)。

    方法关键是使用超像素(superpixel),用于在视觉相似区域中池化3D点特征和2D像素特征,然后训练一个3D网络进行自监督任务,再匹配池化点特征与相应的池化图像像素特征。通过超像素获得的对比区域优势在于:

  1. 将视觉上相干区域的像素和点组合在一起,可以产生更具意义的对比任务,从而产生非常适合3D语义分割和3D目标检测的特征;
  2. 所有不同区域在对比损失中权重相同,与这些区域中采样的3D点数量无关;
  3.  减轻由于不同传感器之间遮挡而导致的点和像素不正确匹配所产生的噪声。在自动驾驶数据集上的大量实验表明,我们的图像到激光雷达蒸馏策略能够产生良好的语义分割和目标检测任务的3D表征。

Motivation

  1. 对三维激光雷达点云进行标注是一项耗时耗力的任务;
  2. 目前的SSL方法多适用于室内密集点云,如PointContrast;
  3. 自动驾驶汽车装置中同步和校准的多模态数据的可用性。

整体架构流程

    利用自动驾驶汽车的同步和校准的摄像头和激光雷达传感器将自我监督的预训练图像表示提取到3D网络中。这个3D网络就是实际需要得到的表征,可以很好地转移到2D中各种复杂的下游任务中,通常超过监督预训练(实现无需标注和少量标注)。即,自我监督的2D到3D表征蒸馏,SLidR。SLidR 将预训练和固定 2D 网络的知识提炼成一个 3D 网络。它使用超像素将视觉上相似区域的特征汇集在一起,无论是在图像上,还是在通过超像素反投影的点云上。超像素驱动的对比损失对齐池化点和图像特征。如图所示:

论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data,论文学习,论文阅读

  对雷达数据和相机的图像数据进行超像素分割得到超像素,经过点云到图像的一个反投影可以得到点与像素的映射关系,且得到superpoint与superpixel对应关系,然后图像数据经过预训练的2D网络再经过一个project head与雷达数据经过3D网络,再经过一个projection head,这样得到的就是相同维度的特征,再经过一个平均池化,就可以进行对比损失优化。(来自于:[论文阅读] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data - 知乎 (zhihu.com))

    流程如下图所示,图像经过超像素分割得到超像素,且反投影到点云上,然后图像经过2D网络(先经过预训练网络再经过一个projection head),然后进行池化;点云数据经过3D网络(先预训练然后经过一个projection head),然后进行池化。这个时候就得到superpixel特征和superpoint特征,然后计算损失loss,匹配superpoint与其对应的superpixel,从而联合训练3D网络和两个head的参数。3D网络的backbone用于迁移到下游任务。

论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data,论文学习,论文阅读

技术细节

雷达和图像数据的同步

对于某一个场景的t0时刻获取得到的点云数据:

 论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data,论文学习,论文阅读

与之对应的 一个相机获取得到图像数据:

论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data,论文学习,论文阅读

通过一个mapping公式进行同步:

论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data,论文学习,论文阅读

小结

      提出基于超像素(superpixel)到超点(superpoint)的对比损失和精心设计的图像特征上采样架构(即将strided convolution替换为dilated convolution)的自监督2D-3D表示蒸馏,该方法允许在不改变网络结构以及不影响结果的情况下提取高分辨率图像特征。这种方法称为SLidR,Superpixel-driven Lidar Representations。这是一种自我监督的图像到图像到 Lidar 蒸馏方法,用于处理同步激光雷达和相机数据,通常在应用于自动驾驶。SLidR 产生了强大的点云表示,这些表示可以很好地转移到多个任务和数据集上,超过了相关的最先进方法。

    首次面向自动驾驶数据的自监督图像到激光雷达的表示蒸馏问题的研究。在论文选取评估设置中,image-to-Lidar pre-training strategy超过了SOTA的3D self-supervised pre-training方法和2D-to-3D distillation方法(设计用于捕捉室内场景中的密集点云)。文章来源地址https://www.toymoban.com/news/detail-713003.html

到了这里,关于论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文阅读]Self-Supervised Learning for Videos: A Survey

    Schiappa, M. C., Rawat, Y. S., Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925 论文中文名称:视频的自监督学习综述 摘要: 深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨

    2024年01月17日
    浏览(56)
  • 论文阅读:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 学习目的是在无人工标注的情况下通过自定制的任务(hand-crafted pretext tasks)学习丰富的表示。 使用 自监督学习 为卷积网络(CNN)学习表示已经被验证对视觉任务有效。作为CNN的一种替代方案, 视觉变换器 (ViT)具有强大的表示能力,具有 空间自注意力和通道

    2024年02月09日
    浏览(49)
  • MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 论文阅读

    题目 :MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者 :Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 时间 :2022 来源 : IEEE/SICE International Symposium on System Integration (SII) 深度学习的最新进展使移动机器人能够以自我监督的方式联合学习自我运动和深度图。 然而,现有的方

    2024年02月09日
    浏览(44)
  • 【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文链接:https://arxiv.org/abs/2312.09243 3D目标检测任务受到无限类别和长尾问题的影响。3D占用预测则不同,其关注场景的几何重建,但多数方法需要从激光雷达点云获取的3D监督信号。 本文提出OccNeRF,一种自监督多相机占用预测模型。首先使用图像主干提取2D特征。为节省空间

    2024年02月02日
    浏览(54)
  • 【自监督论文阅读笔记】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

    2023         本文展示了一种 学习高度语义图像表示 的方法,而 不依赖于手工制作的数据增强 。本文介绍了 基于图像的联合嵌入预测架构 (I-JEPA) ,这是一种用于从图像进行自监督学习的 非生成方法 。 I-JEPA 背后的想法很简单: 从单个上下文块,预测同一图像中各种目

    2024年02月09日
    浏览(47)
  • 论文阅读:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    LIF-Seg:用于 3D LiDAR 语义分割的 LiDAR 和相机图像融合 来源:华科 + 商汤 未发表2021 链接:https://arxiv.org/abs/2108.07511 个人觉得有用的和自己理解加粗和()内表示,尽量翻译的比较全,有一些官方话就没有翻译了,一些疑惑的地方欢迎大家探讨。如果对整个领域比较熟悉看一、

    2023年04月25日
    浏览(42)
  • Self-supervised 3D Human Pose Estimation from a Single Image

    基于单幅图像的自监督三维人体姿态估计   主页: https://josesosajs.github.io/ imagepose/ 源码:未开源 我们提出了一种新的自我监督的方法预测三维人体姿势从一个单一的图像。预测网络是从描绘处于典型姿势的人的未标记图像的数据集和一组未配对的2D姿势训练的。通过最小化

    2024年02月10日
    浏览(45)
  • Low-Light Image Enhancement via Self-Reinforced Retinex Projection Model 论文阅读笔记

    这是马龙博士2022年在TMM期刊发表的基于改进的retinex方法去做暗图增强(非深度学习)的一篇论文 文章用一张图展示了其动机,第一行是估计的亮度层,第二列是通常的retinex方法会对估计的亮度层进行RTV约束优化,从而产生平滑的亮度层,然后原图除以亮度层产生照度层作为

    2024年02月16日
    浏览(47)
  • 论文解读:SuperPoint: Self-Supervised Interest Point Detection and Description

    发表时间: 2018年 项目地址:https://arxiv.org/abs/1712.07629 论文地址:https://github.com/magicleap/SuperPointPretrainedNetwork 本文提出了一种用于训练计算机视觉中大量多视点几何问题的兴趣点检测器和描述符的自监督框架。与patch-based的神经网络相比,我们的全卷积模型处理全尺寸的图像,

    2024年02月14日
    浏览(58)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

    END-TO-END OPTIMIZED IMAGE COMPRESSION 单词 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一个变体 construct 构造 entropy 熵 discrete value 离散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包