论文阅读：Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文阅读：Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

摘要

Motivation

整体架构流程

技术细节

雷达和图像数据的同步

小结

论文地址: [2203.16258] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data (arxiv.org)

论文代码：GitHub - valeoai/SLidR: Official PyTorch implementation of "Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data"

摘要

自动驾驶汽车的图像到雷达自我监督蒸馏。

在自动驾驶中两项重要任务：分割或检测稀疏激光雷达点云目标（使车辆在3D环境中安全运行）。在3D语义分割或目标检测中，性能最好的方法依赖于大量带标注数据（注释3D激光雷达数据既复杂又昂贵）。论文提出一种自监督预训练方法，适用于自动驾驶数据的3D感知模型。即，利用自动驾驶设备中同步和校准的图像和激光雷达传感器的可用性，将自监督的预训练图像表征蒸馏到3D模型中（不需要任何点云或图像标注）。

方法关键是使用超像素（superpixel），用于在视觉相似区域中池化3D点特征和2D像素特征，然后训练一个3D网络进行自监督任务，再匹配池化点特征与相应的池化图像像素特征。通过超像素获得的对比区域优势在于：

将视觉上相干区域的像素和点组合在一起，可以产生更具意义的对比任务，从而产生非常适合3D语义分割和3D目标检测的特征；
所有不同区域在对比损失中权重相同，与这些区域中采样的3D点数量无关；
减轻由于不同传感器之间遮挡而导致的点和像素不正确匹配所产生的噪声。在自动驾驶数据集上的大量实验表明，我们的图像到激光雷达蒸馏策略能够产生良好的语义分割和目标检测任务的3D表征。

Motivation

对三维激光雷达点云进行标注是一项耗时耗力的任务；
目前的SSL方法多适用于室内密集点云，如PointContrast；
自动驾驶汽车装置中同步和校准的多模态数据的可用性。

整体架构流程

利用自动驾驶汽车的同步和校准的摄像头和激光雷达传感器将自我监督的预训练图像表示提取到3D网络中。这个3D网络就是实际需要得到的表征，可以很好地转移到2D中各种复杂的下游任务中，通常超过监督预训练（实现无需标注和少量标注）。即，自我监督的2D到3D表征蒸馏，SLidR。SLidR 将预训练和固定 2D 网络的知识提炼成一个 3D 网络。它使用超像素将视觉上相似区域的特征汇集在一起，无论是在图像上，还是在通过超像素反投影的点云上。超像素驱动的对比损失对齐池化点和图像特征。如图所示：