论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

这篇具有很好参考价值的文章主要介绍了论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

题目：Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

用于自动驾驶感知的多模态传感器融合：综述

链接：https://arxiv.org/abs/2202.02703

只翻译了个人认为比较重要的东西，有些官方话就省了。这篇文章通俗易懂，不过综述都是标记文献[xx]干了啥，其实咱也不知道他具体是咋做的，只看了前面大体介绍的部分。就是分类那里其他没咋看。

摘要

我们进详细分析50 多篇利用感知传感器（包括 LiDAR 和相机）尝试解决对象检测和语义分割任务的论文。与传统的融合模型分类融合方法不同，我们提出了一种创新的方法，从融合阶段的角度将它们分为两大类、四小类更合理的分类法。

1.引言

感知是自动驾驶汽车的基本模块。这些任务包括但不限于 2D/3D 对象检测、语义分割、深度补全和预测，这些任务依赖于安装在车辆上的传感器从环境中采样原始数据。大部分存在的方法单独使用雷达和相机。

然而，单模态数据的感知存在固有的缺陷。例如，相机数据主要在正视图的较低位置捕获。对象可能会在更复杂的场景中被遮挡，这给对象检测和语义分割带来了严峻的挑战。而且，限于机械结构，激光雷达在不同距离处有各种分辨率，容易受到大雾和暴雨等极端天气的影响。尽管两种模态的数据在单独使用时在各个领域都很出色，但激光雷达和相机的互补性使该组合在感知上具有更好的性能。

从更先进的跨模态特征表示和更可靠的不同模态传感器到更复杂和稳健的深度学习模型和技术的多模态融合。然而，只有少数文献综述关注多模态融合方法本身的方法论，并且大多数遵循传统规则将它们分为三大类，即早期融合、深度融合和晚期融合，重点关注深度学习模型中融合特征的阶段，无论是data-level、feature-level还是proposal-level。首先，这种分类法没有明确定义每个级别的特征表示。其次，它表明激光雷达和相机这两个分支在处理过程中始终是对称的，模糊了融合激光雷达分支中的建议级特征和相机分支中的数据级特征的情况。总之，传统的分类法可能是直观但原始的，无法总结最近越来越多的新兴多模态融合方法。我们提出了一种创新的方法，从融合阶段的角度出发，通过更合理的分类法将50多篇相关论文分为两个主要类别和四个次要类别。

主要贡献三点：

我们提出了一种用于自动驾驶感知任务的多模态融合方法的创新分类法，包括强融合和弱融合两个主要类别，以及强融合中的四个次要类别，即早期融合，深度融合，后期融合，不对称融合，由激光雷达分支和摄像机分支的特征表示明确定义。
我们对 LiDAR 和相机分支的数据格式和表示进行了深入调查，并讨论了它们的不同特征。
我们对遗留问题进行了详细分析，并介绍了多模态传感器融合方法的几个潜在研究方向，这可能对未来的研究工作有所启发。

本文结构如下：在第 2 节中，我们简要介绍了自动驾驶中的感知任务，包括但不限于目标检测、语义分割，以及几个广泛使用的开放数据集和基准。在第 3 节中，我们总结了所有数据格式作为下游模型的输入。与图像分支不同，LiDAR 分支在作为输入的格式上有很多不同，包括不同的手动设计的特征和表示。然后，我们在第 4 节中详细描述了融合方法，与传统方法相比，这是一种创新且清晰的分类法，将所有当前工作分为两个主要类别和四个次要类别。在第 5 节中，我们深入分析了自动驾驶多模式传感器融合的一些遗留问题、研究机会和未来可能的工作，我们可以很容易地看出一些有见地的尝试，但仍有待解决。在第 6 节中，我们最终总结了本文的内容。

2.任务和公开挑战

2.1.多模态传感器融合感知任务

一般来说，一些任务可以算作驾驶感知任务，包括目标检测、语义分割、深度补全和预测等。在这里，我们主要关注前两个任务作为最集中的研究领域之一。此外，它们还涵盖诸如检测障碍物、交通信号灯、交通标志以及车道或自由空间分割等任务。我们还简要介绍了一些剩余的任务。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

2.1.1目标检测Object Detection

对于自动驾驶汽车来说，了解周围环境至关重要。为了安全驾驶，无人驾驶车辆需要检测道路的静止和移动障碍物。目标检测是一种传统的计算机视觉任务，广泛应用于自动驾驶系统 [61,108]。研究人员为障碍物检测 (汽车，行人，骑自行车的人等)，交通灯检测，交通标志检测等建立了这样的框架。一般来说，对象检测使用由参数表示的矩形或长方体来紧密绑定预定义类别的实例，例如汽车或行人，这需要在本地化和分类方面都表现出色。由于缺乏深度通道，2D对象检测通常简单地表示为 (x，y，h，w，c)，图像上的中心点，长和宽，类别。而3D对象检测边界框通常表示为 (x，y，z，h，w，l，θ，c)，图像上的中心点，长、宽、高，角度，类别。

2.1.2语义分割Semantic Segmentation

除了目标检测之外，许多自动驾驶感知任务都可以表述为语义分割。例如，可行区域检测是许多自动驾驶系统的基本模块，它将地面像素分为可行区域和不可行区域。一些车道检测方法也使用多类语义分割掩码来表示道路上的不同车道。

语义分割的本质是将输入数据的基本组成部分，如像素和三维点，聚类成包含特定语义信息的多个区域。具体来说，语义分割是给定一组数据，比如图像像素 DI = {d1, d2, ..., dn} 或 LiDAR 3D 点云 DL = {d1, d2, ..., dn}，以及一个预定义的一组候选标签 Y = {y1, y2, y3, ..., yk}，我们使用模型为每个像素或点 di 分配 k 个语义标签中的一个或所有概率。

2.1.3其他感知任务Other Perception Tasks

除了上面提到的目标检测和语义分割，自动驾驶中的感知任务还包括目标分类、深度补全和预测。物体分类主要解决给定点云和图像确定类别的问题。深度补全和预测任务侧重于在给定 LiDAR 点云和图像数据的情况下预测图像中每个像素与观察者的距离。尽管这些任务可能受益于多模态信息，但融合模块在这些领域并未得到广泛讨论。因此，我们选择在本文中省略这两项任务。（就是这篇文章没管其他的，只有目标检测和语义分割）

2.2 公开数据集 Open competitions and Datasets

常见的有十多个，但是主流只有三个数据集，包括KITTI 、Waymo 和nuScenes。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

KITTI 开放基准数据集作为自动驾驶中最常用的目标检测数据集之一，包含 2D、3D 和鸟瞰图检测任务。 KITTI 配备了四个高分辨率摄像机、一个 Velodyne 激光扫描仪和一个最先进的定位系统，收集了 7481 张训练图像和 7518 张测试图像以及相应的点云。只有三个对象被标记为汽车、行人和骑自行车的人，超过 200k 的 3D 对象注释根据检测难度分为三类：简单、中等和困难。对于 KITTI 物体检测任务，经常使用 Average Precision 进行比较。此外，平均方向相似度还用于评估联合检测对象和估计其 3D 方向的性能。

Waymo 作为常用于自动驾驶基准测试的最大开放数据集之一，由五个 LiDAR 传感器和五个高分辨率针孔相机收集。具体来说，有798个3场景用于训练，202个场景用于验证，150个场景用于测试。每个场景时长 20 秒，并附有车辆、骑自行车者和行人的注释。为了评估 3D 物体检测任务，Waymo 包含四个指标：AP/L1、APH/L1、AP/L2、APH/L2。更具体地说，AP 和 APH 代表两种不同的性能测量，而 L1 和 L2 包含具有不同检测难度的对象。至于 APH，它的计算类似于 AP，但由航向精度加权。

NuScenes 数据集包含1000驾驶场景，700训练，150验证和测试一下150。nuScenes配备了摄像头，激光雷达和雷达传感器，可以在每个关键帧中注释23个对象类别，包括不同类型的车辆，行人和其他人。NuScenes使用AP、TP进行检测性能评估。此外，它提出了一种创新的标量得分，即AP计算的nuScenes检测得分 (NDS)，TP隔离了不同的错误类型。

3. 激光雷达和图像的表示

深度学习模型仅限于输入的表示。为了实现模型，我们需要在将数据输入模型之前通过精心设计的特征提取器对原始数据进行预处理。因此，我们首先介绍激光雷达和图像数据的表示，我们将在后面的部分讨论融合方法和模型。

图像表示：大多数现有方法都保持与下游模块输入的原始数据相同的格式。激光雷达表示：高度依赖数据格式，它强调不同的特性，并大量影响下游模型设计。结果，我们将它们总结为基于点，基于体素和基于2d映射的点云数据格式，以适合异构深度学习模型。

3.1. 图像表示Image Representation

作为 2D 或 3D 对象检测和语义分割任务中最常用的数据采集传感器，单目相机提供富含纹理信息的 RGB 图像。具体来说，对于作为 (u, v) 的每个图像像素，它有一个多通道特征向量 F(u,v) = {R, G,B, ...} 其中通常包含相机捕获的红色分解颜色、蓝色、绿色通道或其他手动设计的特征作为灰度通道。

然而，由于深度信息有限，单目相机难以提取，直接检测 3D 空间中的物体相对具有挑战性。因此，许多工作通过空间和时间空间使用双目或立体相机系统来利用额外的信息进行 3D 对象检测，例如深度估计、光流等。对于夜间或雾天等极端驾驶环境，一些工作还使用门控或红外摄像头来提高鲁棒性。

3.2. 基于点的点云表示Point-based Point Cloud Representation

激光雷达使用激光系统扫描环境并生成点云。它对世界坐标系中的点进行采样，这些点表示激光射线和不透明度表面的交点。一般来说，大多数激光雷达的原始数据是四元数像 (x，y，z，r)，r代表每个点的反射率。不同的纹理导致不同的反射率，这在几个任务中提供了额外的信息。为了合并LiDAR数据，某些方法通过基于点的特征提取主干直接使用点。但是，点的四元数表示存在冗余或速度缺陷。因此，许多研究人员尝试在将点云馈送到下游模块之前将其转换为体素或2D投影。

3.3. 基于体素的点云表示 Voxel-based Point Cloud Representation

一些工作通过将 3D 空间离散化为 3D 体素来利用 3D CNN，表示为 Xv = {x1, x2, x3...xn}，其中每个 xi 代表一个特征向量，如 xi = {si, vi}。 si 代表体素化长方体的质心，而 vi 代表一些基于统计的局部信息。

局部密度是一种常用特征，由局部体素中 3D 点的数量定义。局部偏移通常定义为点实数坐标与局部体素质心之间的偏移。其他可能包含局部线性度和局部曲率。最近的工作可能会考虑一种更合理的离散化方式，如基于圆柱体的体素化，但基于体素的点云表示与上面提到的基于点的点云表示不同，它极大地减少了非结构化点云的冗余。此外，能够利用 3D 稀疏卷积技术，感知任务不仅可以实现更快的训练速度，还可以获得更高的精度。

3.4. 基于二维映射的点云表示 2D-mapping-based Point Cloud Representation

一些作品没有提出新的网络结构，而是利用复杂的 2D CNN 主干来编码点云。具体来说，他们试图将 LiDAR 数据作为两种常见类型投影到图像空间中，包括相机平面图 (CPM) 和鸟瞰图 (BEV) 。

CPM通过将每个 3D 点作为 (x, y, z) 投影到相机坐标系中作为 (u, v)。由于 CPM 与相机图像具有相同的格式，因此可以通过使用 CPM 作为附加通道自然地融合它们。然而，由于投影后激光雷达的分辨率较低，CPM中许多像素的特征被破坏了。因此，已经提出了一些方法来对特征图进行上采样，而其他方法则将它们留空。

BEV 映射从上方提供场景的提升视图。检测和定位任务使用它有两个原因。首先，与安装在挡风玻璃后面的摄像头不同，大多数 LiDAR 位于车辆顶部，遮挡较少。其次，所有物体都放置在 BEV 的地平面上，模型可以生成长度和宽度没有失真的预测。 BEV 组件可能会有所不同。有些是直接从高度、密度或强度转换为基于点或基于体素的特征，而另一些则通过特征提取模块学习支柱中 LiDAR 信息的特征。

4. 融合方法

在本节中，我们将回顾 LiDAR 相机数据的不同融合方法。从传统分类学的角度来看，所有的多模态数据融合方法都可以方便地分为三种范式，包括数据级融合（early-fusion）、特征级融合（deep-fusion）和对象级融合（(late-fusion )。

数据级融合或早期融合方法通过空间对齐方式以不同的方式直接融合原始传感器数据。特征级融合或深度融合方法通过连接或逐元素乘法在特征空间中混合跨模态数据。对象级融合方法结合每个模态中模型的预测结果并做出最终决策。

但是，最近的工作不能轻易地分为这三类。因此，在本文中，我们提出了一种新的分类法，将所有融合方法分为强融合和弱融合，我们将对此进行详细阐述。为了进行性能比较，我们专注于KITTI基准测试中的两个主要任务，即3D检测和鸟瞰图对象检测。表2和表3分别给出了最近多模式融合方法在BEV和3D设置的KITTI测试一下数据集上的实验结果。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

4.1. 强融合Strong-fusion

我们根据 LiDAR 和相机数据表示的不同组合阶段，将强融合分为早期融合、深度融合、晚期融合和不对称融合四类。强聚变作为研究最多的融合方法，近年来取得了很多突出的成果。从图 3 的概览中，很容易注意到 strongfusion 中的每个小类都高度依赖于 LiDAR 点云而不是相机数据。然后我们将特别讨论它们中的每一个。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

4.1.1早期融合Early-fusion

不同于传统的datalevel-fusion定义，传统的datalevel-fusion是一种在原始数据级别通过空间对齐和投影直接融合每个模态数据的方法。early-fusion在数据级别融合LiDAR数据和相机的数据级别或特征级别。早期融合的一个示例可以是图 4 中的模型。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

上面提到的LiDAR分支，点云可以是带有反射率的3D点、体素化张量、前视/远景/鸟瞰图以及伪点云的形式使用。尽管所有这些数据都具有不同的内在特征，这些特征与后者 LiDAR 主干高度相关，但除了伪点云之外，这些数据中的大多数都是通过基于规则的处理产生的。此外，LiDAR 的所有这些数据表示都可以直接可视化，因为与特征空间中的嵌入相比，这个阶段的数据仍然具有可解释性。

对于图像分支，侠义的数据级定义应该只包含RGB或Gray的数据，缺乏通用性和合理性。与传统的早期融合定义相比，我们在这里将相机数据推广为为数据级和特征级数据。特别是，这里我们将有利于 3D 对象检测的图像分支中的语义分割任务结果视为特征级表示，因为这些“对象级”特征不同于整个任务的最终对象级建议。

[76] 和 [90] 将图像分支和原始激光雷达点云中的语义特征融合在一起，从而在目标检测任务中获得更好的性能。[68] 和 [20] 还利用语义特征，但与上述方法不同，它将原始激光雷达点云预处理为体素化张量，以进一步利用更先进的激光雷达主干。[54] 将3D lidar点云转换为2D图像，并利用成熟的CNN技术在图像分支中融合特征级表示，以实现更好的性能。[87] 将原始RGB像素与体素化张量融合在一起，而 [79] 将从图像分支生成的伪点云和从激光雷达分支生成的原始点云直接组合在一起，以完成目标检测任务。

基于VoxelNet [108]，[69] 提出了一种融合方法，即点融合，将相应像素的图像特征向量直接附加到体素化向量上。[92] 提出了将每个原始点与图像分支的全局特征相结合的密集融合。[53] 专注于使用CNN进行2D行人检测。作为early-fusion，它在输入CNN之前直接融合不同的分支。[105] 提出了一种名为点注意力融合的融合方法，它将图像特征融合到 LiDAR 点云中的体素化张量。

4.1.2深度融合 Deep-fusion

深度融合方法在LiDAR分支的特征级别融合交叉模态数据，而在图像分支的数据级别和特征级别融合交叉模态数据。例如，一些方法使用特征提取器分别获取激光雷达点云和相机图像的嵌入表示，并通过一系列下游模块以两种模式融合特征 [32，102]。但是，与其他强融合方法不同，深度融合有时会以级联的方式融合特征 [4,32，46]，这两者都利用原始和高级语义信息。深度融合的一个示例可以是图5中的模型。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

[92] 提出了全局融合附加的全局 LiDAR 特征和来自图像分支的全局特征。 [69] 提出了其他融合方法作为体素融合，它将 ROI 池化图像特征向量附加到 LiDAR 点云中每个体素的密集特征向量。 [105] 提出了另一种名为密集注意融合的方法，该方法融合了来自多个分支的伪图像。 [45、49]分别提出了两种深度融合方法。 EPNet [32] 深度 LIDAR-Image 融合估计相应图像特征的重要性以减少噪声影响。 [4] 提出了极端天气下的多模态数据集，并以深度融合的方式融合了每个分支，极大地提高了自动驾驶模型的鲁棒性。其他深度融合工作包括 [9, 14, 16, 22, 37, 46, 73, 78, 85,102]，它们具有看似相同的融合模块。

4.1.3 后期融合 Late-fusion

后期融合，也称为对象级融合，表示融合每个模态中管道结果的方法。例如，一些后期融合方法利用 LiDAR 点云分支和相机图像分支的输出，并根据两种模式的结果进行最终预测 [55]。请注意，两个分支提案应与最终结果具有相同的数据格式，但在质量、数量和精度方面有所不同。 Latefusion可以看作是一种利用多模态信息优化最终提议的集成方法。后期融合的一个例子可以是图 6 中的模型。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

如上所述，[55] 利用后期融合将图像分支中的 2D 提议与 LiDAR 分支中的 3D 提议相结合，二次细化每个 3D 区域提议的分数。此外，对于每个重叠区域，它都利用了置信度得分、距离和 IoU 等统计特征。 [1] 专注于 2D 对象检测，它结合了来自两个分支的建议以及置信度得分等特征，模型输出最终的 IoU 得分。 [29]、[28]通过将分割结果组合在一起来解决道路检测。作为 [53] 中的后期融合，它将来自不同分支的相同 3D 检测建议的分数汇总为一个最终分数。

4.1.4不对称融合Asymmetry-fusion

除了早期融合，深度融合和后期融合之外，某些方法还使用不同的权限来处理跨模态分支，因此我们定义了融合来自一个分支的对象级信息而来自其他分支的数据级或特征级信息的方法不对称融合。与强融合中的其他方法不同，后者以看似平等的状态对待两个分支，不对称融合至少有一个分支占主导地位，而其他分支则提供辅助信息来执行最终任务。后期融合的一个示例可以是图7中的模型。特别是与后期融合相比，尽管使用提案它们可能具有相同的提取功能，但不对称融合仅来自一个分支的一个提案，而后期融合则来自所有分支。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

这种融合方法是合理的，因为在相机数据上使用卷积神经网络具有出色的性能，它可以过滤点云中语义上无用的点，并以平截头体视角提升 3D LiDAR 主干的性能，例如 [106]。它提取原始点云中的平截头体以及相应像素的 RGB 信息，以输出 3D 边界框的参数。然而，一些作品跳出框框思考，使用 LiDAR 主干以多视图方式引导 2D 主干并获得更高的精度。 [40] 侧重于基于 3D 检测建议通过提取的多视图图像进行行人检测，进一步利用 CNN 改进先前的建议。

[12] 和 [17] 改进了仅由 LiDAR 分支预测的 3D 提议，在其他分支中具有 ROI 特征。 [5] 侧重于 2D 检测，利用来自 LiDAR 分支的 3D 区域提议并重新投影到 2D 提议以及图像特征以进一步细化。 [11] 通过统计和基于规则的信息提出了一个 3D 潜在边界框。结合图像特征，输出最终的 3D proposal。 [70] 专注于通过专门收集的数据集完成的小物体检测，这本质上是一个 2D 语义分割任务，将 LiDAR 的建议与原始 RGB 图像相结合以输出最终结果。

4.2. Weak-fusion

与强融合不同，弱融合方法不会直接从多模态分支融合数据/特征/对象，而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法来利用一种模式中的数据作为监督信号来指导另一种模式的交互。图8演示了弱融合模式的基本框架。例如，来自图像分支中的CNN的2D提议可能会导致原始lidar点云中的平截头体。但是，与上述将图像特征组合为不对称融合不同，弱融合直接将那些选择到激光雷达主干中的原始激光雷达点云输入以输出最终建议 [60]。

论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

[83] 通过固定选择的步幅将每个截头体分成几个部分来推进技术，这进一步提高了3D检测精度。[104] 专注于远程稀疏点云对象检测。[99] 从图像中的语义分割结果中滤除截头中激光雷达点云的所有背景点。[72] 专注于半监督和转移学习，其中根据2D图像提案提出了截头体。

像 [19] 这样的其他弱融合通过每次仅选择两个分支中的一个模型来使用强化学习策略预测最终提案来突出2D对象的实时检测性能。在 [21] 中，通过图像分支中的2D检测建议生成多个3D框建议，然后模型输出具有其检测分数的最终3D检测框。[67] 使用1个图像来预测2D边界框和3D姿势参数，并利用相应区域中的激光雷达点云进一步细化。

4.3 其他融合方法 Other Fusion Methods

有些工作不能简单地定义为上述任何一种融合，因为它们在整个模型框架中拥有不止一种融合方法，例如deep-fusion和late-fusion的结合[39]，而[77]结合了early-融合和深度融合在一起。这些方法在模型设计视图上存在冗余，这不是融合模块的主流。

5. 多模态融合的机会Opportunities in Multi-Modal Fusion

近年来，用于自动驾驶感知任务的多模态融合方法取得了快速进展，从更高级的特征表示到更复杂的深度学习模型 [15, 81]。但是，还有一些更开放的问题需要解决。我们在这里将未来要做的一些关键和必要的工作总结为以下几个方面。

5.1 更先进的融合方法

当前的融合模型存在未对准和信息丢失的问题 [13,67，98]。此外，平面融合操作 [20,76] 也阻止了感知任务性能的进一步提高。我们将它们总结为两个方面: 错位和信息丢失，更合理的融合操作。

5.1.1错位和信息丢失Misalignment and Information Loss

摄像机和激光雷达的内在和外在有很大的不同。两种方式的数据都需要在新的坐标系下重新组织。传统的早期和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素，反之亦然 [54,69，76]。但是，由于感觉噪声，这种逐像素的对齐不够准确。因此，我们可以看到，除了如此严格的对应关系之外，一些利用周围信息作为补充的工作 [90] 还可以获得更好的性能。

此外，在输入和特征空间的变换过程中还存在一些其他信息损失。通常，降维操作的投影不可避免地会导致大量信息丢失，例如将3D LiDAR点云映射到2D BEV图像中。因此，通过将两个模态数据映射到另一个专门为融合设计的高维表示，未来的工作可以有效地利用原始数据，同时减少信息损失。

5.1.2 更合理的融合操作More Reasonable Fusion Operations

当前的研究工作使用直观的方法来融合跨模态数据，例如串联和元素乘 [69,77]。这些简单的操作可能无法将数据与较大的分布差异融合在一起，因此很难缩小两种模式之间的语义差距。一些工作试图使用更详细的级联结构来融合数据并提高性能 [12,46]。在未来的研究中，诸如双线性映射 [3,25，38] 之类的机制可以将特征与不同的特征融合在一起。

5.2. 多源信息杠杆 Multi-Source Information Leverage

前视图单帧是自动驾驶感知任务的典型场景[26]。然而，大多数框架利用有限的信息而没有精心设计的辅助任务来进一步了解驾驶场景。我们将它们总结为具有更多潜在有用的信息和自我监督的表征学习。

5.2.1 具有更多潜在有用信息With More Potential Useful Information

现有方法[81]缺乏对来自多个维度和来源的信息的有效利用。他们中的大多数人专注于前视图的单帧多模态数据。结果，其他有意义的信息没有得到充分利用，例如语义、空间和场景上下文信息。

一些模型 [20, 76, 90] 尝试使用从图像语义分割任务获得的结果作为附加特征，而其他模型可能利用神经网络主干的中间层中的特征，无论是否由特定的下游任务训练 [46] .在自动驾驶场景中，许多具有显式语义信息的下游任务可能极大地有利于目标检测任务的性能。例如，车道检测可以直观地为检测车道之间的车辆提供额外帮助，语义分割结果可以提高目标检测性能 [20,76,90]。因此，未来的研究可以通过检测车道、红绿灯和标志等各种下游任务共同构建城市景观场景的完整语义理解框架，以辅助感知任务的性能。

此外，当前的感知任务主要依赖于忽略时间信息的单帧。最近基于 LiDAR 的方法 [63] 结合了一系列帧来提高性能。时间序列信息包含序列化的监督信号，与使用单帧的方法相比，它可以提供更稳健的结果。因此，未来的工作可能会更深入地利用时间、上下文和空间信息来进行创新模型设计的连续帧。

5.2.2 自监督表示学习Self-Supervision for Representation Learning

相互监督的信号自然存在于从相同的现实世界场景但不同视角采样的跨模态数据中。然而，由于缺乏对数据的深入理解，目前的方法无法挖掘每种模态之间的相互关系。未来，研究可以集中在如何使用多模态数据进行自我监督学习，包括预训练、微调或对比学习。通过实施这些最先进的机制，融合模型将导致对数据的更深入理解并取得更好的结果，这已经在其他领域显示出一些有希望的迹象，同时为自动驾驶感知留下了空白[48] ].

5.3. 感知传感器的内在问题Intrinsic Problems in Perception Sensors

领域偏差和分辨率与现实世界的场景和传感器高度相关 [26]。这些意想不到的缺陷阻碍了自动驾驶深度学习模型的大规模训练和实施，需要在未来的工作中解决。

5.3.1 数据域偏差Data Domain Bias

在自动驾驶感知场景中，不同传感器提取的原始数据伴随着严重的领域相关特征。不同的相机系统有其光学特性，而 LiDAR 可能从机械 LiDAR 到固态 LiDAR。更重要的是，数据本身可能存在领域偏差，例如天气、季节或位置 [6,71]，即使它是由相同的传感器捕获的。结果，检测模型无法顺利适应新场景。由于泛化失败，这些缺陷阻碍了大规模数据集的收集和原始训练数据的可重用性。因此，在未来的工作中找到一种消除领域偏差并自适应地集成不同数据源的方法至关重要。

5.3.2与数据解析冲突Conﬂicts with Data Resolution

来自不同模态的传感器通常具有不同的分辨率 [42，100]。例如，激光雷达的空间密度明显低于图像的空间密度。无论采用何种投影方式，都因为找不到对应关系而消除了一些信息。这可能导致模型被一种特定模态的数据所控制，无论是由于特征向量的分辨率不同还是原始信息的不平衡。因此，未来的工作可以探索一种与不同空间分辨率的传感器兼容的新数据表示系统。

6. Conclusion

在本文中，我们回顾了 50 多篇关于自动驾驶感知任务的多模式传感器融合的相关论文。具体来说，我们首先提出了一种创新的方法，从融合的角度通过更合理的分类法将这些论文分为三类。然后我们对 LiDAR 和相机的数据格式和表示进行了深入调查，并描述了不同的特征。最后，我们对多模态传感器融合的遗留问题进行了详细分析。

整理不易，求点赞！！！文章来源地址https://www.toymoban.com/news/detail-400458.html

到了这里，关于论文阅读综述：自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！