【最新综述】史上最全面的3D语义分割综述（上）

这篇具有很好参考价值的文章主要介绍了【最新综述】史上最全面的3D语义分割综述（上）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Deep Learning Based 3D Segmentation: A Survey

s3dis语义分割精度,三维点云语义分割,3d

ABSTRACT

三维分割是计算机视觉领域的一个基本而具有挑战性的问题，可应用于自动驾驶、机器人、增强现实和医学图像分析。它受到了计算机视觉、图形学和机器学习界的极大关注。传统的三维分割方法基于手工创建的特征和机器学习分类器，缺乏泛化能力。在二维计算机视觉领域取得成功的推动下，深度学习技术最近已成为三维分割任务的首选工具。这导致文献中出现了大量在不同基准数据集上进行评估的方法。虽然存在关于 RGB-D 和点云分割的调查论文，但缺乏涵盖所有三维数据模式和应用领域的深入的最新调查。本文填补了这一空白，对基于深度学习的三维分割领域的最新进展进行了全面调查。它涵盖了 180 多项研究成果，分析了它们的优势和局限性，并讨论了它们在基准数据集上的竞争结果。调查总结了最常用的管道，最后强调了未来有前景的研究方向。

1. Introduction

三维场景分割是计算机视觉和计算机图形学中的一个基本而又具有挑战性的问题。三维分割的目标是建立能预测三维场景中物体细粒度标签的计算技术，以广泛应用于自动驾驶、移动机器人、工业控制、增强现实和医学图像分析等领域。如图 1 所示，三维分割可分为三种类型：语义分割、实例分割和部分分割。语义分割旨在预测物体类别标签，如桌子和椅子。实例分割还能区分同一类别标签的不同实例，例如桌子一/二和椅子一/二。部件分割的目的是将实例进一步分解为不同的组件，如同一把椅子的扶手、椅腿和靠背。

s3dis语义分割精度,三维点云语义分割,3d

与传统的单视角二维分割相比，三维分割能更全面地了解场景，因为三维数据（如 RGB-D、点云、体素、网格、三维视频）包含更丰富的几何、形状和比例信息，背景噪音更少。此外，三维数据的表示形式，例如投影图像，具有更多的语义信息。

最近，深度学习技术在计算机视觉和自然语言处理等许多研究领域占据了主导地位。由于深度学习在学习强大特征方面的成功，用于三维分割的深度学习已在过去十年中，三维深度学习方法也吸引了研究界越来越多的关注。然而，三维深度学习方法仍面临许多尚未解决的难题。例如，点云的不规则性使其难以利用局部特征，而将其转换为高分辨率体素又会带来巨大的计算负担。

本文全面介绍了三维分割深度学习方法的最新进展。它重点分析了常用的构建模块、卷积核和完整架构，指出了每种情况下的利弊。调查涵盖了过去五年中发表的 180 多篇代表性论文。尽管已经发布了一些著名的三维分割调查报告，包括 RGB-D 语义分割 Fooladgar遥感图像分割 Yuan, Shi and Gu (2021)，点云分割 Xie, Jiaojiao and Zhu (2020a)，Guo, Wang, Hu, Liu, Liu and Bennamoun (2020)，Liu, Sun, Li, Hu and Wang (2019a)，Bello, Yu、Naseer、Khan 和 Porikli (2018)、Ioannidou、Chatzilari、Nikolopoulos 和 Kompatsiaris (2017)，这些调查并没有全面覆盖所有三维数据类型和典型应用领域。最重要的是，这些调查并不侧重于三维分割，而是对来自点云的深度学习进行了一般性调查，如 Guo 等人（2020 年）、Liu 等人（2019a）、Bello 等人（2020 年）、Naseer 等人（2018 年）、Ioannidou 等人（2017 年）。鉴于这三个分割任务的重要性，本文专门关注三维分割的深度学习技术。本文的贡献总结如下：

1.据我们所知，这是第一篇全面介绍三维分割深度学习方法的调查论文，涵盖了所有三维数据表示，包括 RGB-D、投影图像、体素、点云、网格和三维视频。

2.本调查报告深入分析了不同类型三维数据分割方法的相对优缺点。

3.与现有的综述不同，本调查报告侧重于专为三维分割设计的深度学习方法，还讨论了典型的分割管道和应用领域。

4.最后，本调查报告在几个公共基准三维数据集上对现有方法进行了全面比较，得出了有趣的结论，并确定了有前途的未来研究方向。

图 2 展示了本研究的组织结构。第 2 节介绍了一些术语和背景概念，包括流行的三维数据集和三维分割的评估指标。第 3 节回顾了三维语义分割方法，第 4 节回顾了三维实例分割方法。第 5 节介绍了现有的三维部件分割方法。第 6 节回顾了一些常见应用领域中使用的三维分割方法，包括三维视频分割和三维语义地图。第 7 节对几种常用数据集上的三维分割方法进行了性能比较，并给出了相应的数据分析。最后，第 8 节指出了未来有前景的研究方向，并对本文进行了总结。

s3dis语义分割精度,三维点云语义分割,3d

2. Terminology and Background Concept

本节将介绍一些术语和背景概念，包括三维数据表示、流行的三维分割数据集和评估指标，以帮助读者轻松浏览三维分割领域。

2.1. 3D Segmentation Dataset

数据集对于利用深度学习训练和测试三维分割算法至关重要。然而，私人收集和注释数据集既麻烦又昂贵，因为这需要专业领域的知识、高质量的传感器和处理设备。因此，利用公共数据集是降低成本的理想方法。对社区来说，采用这种方法还有另一个好处，即可以对各种算法进行公平比较。表 1 总结了一些最流行、最典型的数据集，涉及传感器类型、数据大小和格式、场景类别和注释方法。

s3dis语义分割精度,三维点云语义分割,3d

这些数据集由不同类型的传感器采集，用于 3D 语义分割，其中包括 RGB-D 摄像机Silberman 和 Fergus (2011)，Silberman、Hoiem、Kohli 和 Fergus (2012)，Song、Lichtenberg 和 Xiao (2015)，Hua、Pham、Nguyen、Tran、Yu 和 Yeung (2016)，Dai、Chang、Savva、Halber、Funkhouser和Nießner（2017），移动激光扫描仪Roynard、Deschaud和Goulette（2018），Behley、Garbade、Milioto、Quenzel、Behnke、Stachniss和Gall（2019），静态地面扫描仪Hackel、Savinov、Ladicky、Wegner、Schindler 和 Pollefeys（2017）以及虚幻引擎 Brodeur、Perez、Anand、Golemo、Celotti、Strub、Rouat、Larochelle 和 Courville（2017）、Wu、Wu、Gkioxari和Tian（2018b）以及其他三维扫描仪 Armeni、Sener、Zamir、Jiang、Brilakis、Fischer和Savarese（2016），Chang、Dai、Funkhouser、Halber、Niebner、Savva、Song、Zeng和Zhang（2017）。其中，从虚幻引擎中获得的是合成数据集 Brodeur 等人（2017） Wu 等人（2018b），不需要昂贵的设备或注释时间。这些数据集还具有丰富的对象类别和数量。合成数据集拥有完整的 360 度 3D 物体，没有遮挡效应或噪声，而真实世界的数据集则存在噪声并包含遮挡物 Silberman 和 Fergus (2011)、Silberman 等人 (2012)、Song 等人 (2015)、Hua 等人 (2016)、Dai 等人 (2017)、Roynard 等人 (2018)、Behley 等人 (2019)、Armeni 等人 (2016)、Hackel 等人 (2017)、Chang 等人 (2017)。在三维实例分割方面，有一些有限的三维数据集，如 ScanNet Dai 等人（2017 年）和 S3DIS Armeni 等人（2016 年）。这两个数据集包含由 RGB-D 相机或 Matterport 分别获得的真实世界室内场景扫描。在三维部件分割方面，普林斯顿分割基准（PSB）Chen、Golovinskiy 和 Funkhouser（2009 年）、COSEG Wang、Asafi、Van Kaick、Zhang、Cohen-Or 和 Chen（2012 年）以及 ShapeNet Yi、Kim、Ceylan、Shen、Yan、Su、Lu、Huang、Sheffer 和 Guibas（2016 年）是最受欢迎的三个数据集。下面，我们将详细介绍五个著名的分割数据集，包括 S3DIS Armeni 等人（2016 年）、ScanNet Dai 等人（2017 年）、Semantic3D Hackel 等人（2017 年）、SemanticKITTI Chang 等人（2017 年）和 ShapeNet Yi 等人（2016 年）。图3显示了这些数据集的一些注释示例。

s3dis语义分割精度,三维点云语义分割,3d

S3DIS：在该数据集中，使用 Matterport 扫描仪无需任何人工干预即可获得完整的点云。该数据集由 271 个房间组成，隶属于 3 座不同建筑的 6 个大型室内场景（总面积达 6020 平方米）。这些区域主要包括办公室、教育和展览空间以及会议室等。

Semantic3D：包含利用静态地面激光扫描仪采集的总计约40亿个三维点，在现实世界的三维空间中覆盖范围最大可达160×240×30米。点云属于8个类别（如城市和农村），包含三维坐标、RGB信息和强度。与二维标注策略不同，三维数据标注很容易进行过度分割，即每个点都被单独分配到一个类别标签中。

SemanticKITTI：是一个大型室外数据集，包含28类详细的按点注释。在KITTI视觉基准Geiger、Lenz和Urtasun（2012年）的基础上，SemanticKITTI包含了该基准所有22个序列的注释，其中包括43K次扫描。此外，该数据集还包含旋转激光传感器的完整水平360视角的标签。

ScanNet ：数据集对场景理解研究特别有价值，因为其注释包含估计的校准参数、相机姿势、三维表面重建、纹理网格、密集的对象级语义分割和 CAD 模型。该数据集包括真实世界环境中带有注释的 RGB-D 扫描。在 707 个不同地点采集的 1513 次扫描中共有 250 万张 RGB-D 图像。在对 RGB-D 图像进行处理后，使用 Amazon Mechanical Turk 执行了注释人工智能任务。

ShapeNet ：数据集采用了一种可扩展的新方法，可对海量三维形状集合进行高效、准确的几何标注。新颖的技术创新明确地模拟并减少了标注工作的人力成本。研究人员在 ShapeNetCore 中的形状类别中为 31963 个模型创建了详细的按点标注，并将基于特征的分类器、点对点对应关系和形状对形状的相似性结合到对形状网络的单一 CRF 优化中。

2.2. Evaluation Metrics

不同的评价指标可以证明分割方法的有效性和优越性，包括执行时间、内存占用和准确性。然而，很少有作者提供有关其方法的执行时间和内存占用的详细信息。本文主要介绍准确度指标。

对于三维语义分割来说，总体准确度（OAcc）、平均类别准确度（mAcc）和平均类别交集大于联合（mIoU）是衡量分割方法准确度最常用的指标。为了便于解释，我们假设总共有 K + 1 个类别，而 pij 是类别 i 中暗示属于类别 j 的最小单位（如像素、体素、网格、点）。换句话说，pii 代表真阳性，而 pij 和 pji 分别代表假阳性和假阴性。

总体准确率是一个简单的指标，计算的是真正被分类的样本数量与样本总数之间的比率。

s3dis语义分割精度,三维点云语义分割,3d

平均准确度是对 OAcc 的扩展，计算每个类别的 OAcc，然后对类别总数 K 求平均值。

s3dis语义分割精度,三维点云语义分割,3d

平均交叉比联合是语义分割的一个标准指标。它计算的是基本真实值和预测值之间的交集比率，以 K 类总数为平均值。

s3dis语义分割精度,三维点云语义分割,3d

在三维实例分割中，还经常使用平均精度（AP）和平均类精度（mAP）。假设 LI ，I∈ [0, K] 每类中的实例，而 cij 是实例 i 推断属于实例 j 的点的数量（i = j 代表正确分割，i≠ j 代表错误分割）。

平均精度是另一个简单的分割指标，它计算真阳性样本与阳性样本总数之间的比率。

s3dis语义分割精度,三维点云语义分割,3d

平均值平均精度是 AP 的扩展，它先计算每个班级的 AP，然后对总的 AP 求平均值。

s3dis语义分割精度,三维点云语义分割,3d

在三维零件分割中，最常用的是整体平均类别联合交集（mIoUcat）和整体平均实例联合交集（mIoUins）。为了便于解释，我们假设每个实例中都有 MJ , J ∈ [0, LI ]个零件，而 qij 是零件 i 中被推断为属于零件 j 的点的总数，因此 qii 代表真阳性的数量，而 qij 和 qji 分别是假阳性和假阴性。

总体平均类别交集大于联盟是一个用于零件分割的评价指标，用于衡量 K 个类别的平均 IoU。

s3dis语义分割精度,三维点云语义分割,3d