【最新综述】史上最全面的3D语义分割综述(上)

这篇具有很好参考价值的文章主要介绍了【最新综述】史上最全面的3D语义分割综述(上)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Deep Learning Based 3D Segmentation: A Survey

s3dis语义分割精度,三维点云语义分割,3d

ABSTRACT

        三维分割是计算机视觉领域的一个基本而具有挑战性的问题,可应用于自动驾驶、机器人、增强现实和医学图像分析。它受到了计算机视觉、图形学和机器学习界的极大关注。传统的三维分割方法基于手工创建的特征和机器学习分类器,缺乏泛化能力。在二维计算机视觉领域取得成功的推动下,深度学习技术最近已成为三维分割任务的首选工具。这导致文献中出现了大量在不同基准数据集上进行评估的方法。虽然存在关于 RGB-D 和点云分割的调查论文,但缺乏涵盖所有三维数据模式和应用领域的深入的最新调查。本文填补了这一空白,对基于深度学习的三维分割领域的最新进展进行了全面调查。它涵盖了 180 多项研究成果,分析了它们的优势和局限性,并讨论了它们在基准数据集上的竞争结果。调查总结了最常用的管道,最后强调了未来有前景的研究方向。

1. Introduction

        三维场景分割是计算机视觉和计算机图形学中的一个基本而又具有挑战性的问题。三维分割的目标是建立能预测三维场景中物体细粒度标签的计算技术,以广泛应用于自动驾驶、移动机器人、工业控制、增强现实和医学图像分析等领域。如图 1 所示,三维分割可分为三种类型:语义分割、实例分割和部分分割。语义分割旨在预测物体类别标签,如桌子和椅子。实例分割还能区分同一类别标签的不同实例,例如桌子一/二和椅子一/二。部件分割的目的是将实例进一步分解为不同的组件,如同一把椅子的扶手、椅腿和靠背。

s3dis语义分割精度,三维点云语义分割,3d

        与传统的单视角二维分割相比,三维分割能更全面地了解场景,因为三维数据(如 RGB-D、点云、体素、网格、三维视频)包含更丰富的几何、形状和比例信息,背景噪音更少。此外,三维数据的表示形式,例如投影图像,具有更多的语义信息。

        最近,深度学习技术在计算机视觉和自然语言处理等许多研究领域占据了主导地位。由于深度学习在学习强大特征方面的成功,用于三维分割的深度学习已在过去十年中,三维深度学习方法也吸引了研究界越来越多的关注。然而,三维深度学习方法仍面临许多尚未解决的难题。例如,点云的不规则性使其难以利用局部特征,而将其转换为高分辨率体素又会带来巨大的计算负担。

        本文全面介绍了三维分割深度学习方法的最新进展。它重点分析了常用的构建模块、卷积核和完整架构,指出了每种情况下的利弊。调查涵盖了过去五年中发表的 180 多篇代表性论文。尽管已经发布了一些著名的三维分割调查报告,包括 RGB-D 语义分割 Fooladgar遥感图像分割 Yuan, Shi and Gu (2021),点云分割 Xie, Jiaojiao and Zhu (2020a),Guo, Wang, Hu, Liu, Liu and Bennamoun (2020),Liu, Sun, Li, Hu and Wang (2019a),Bello, Yu、Naseer、Khan 和 Porikli (2018)、Ioannidou、Chatzilari、Nikolopoulos 和 Kompatsiaris (2017),这些调查并没有全面覆盖所有三维数据类型和典型应用领域。最重要的是,这些调查并不侧重于三维分割,而是对来自点云的深度学习进行了一般性调查,如 Guo 等人(2020 年)、Liu 等人(2019a)、Bello 等人(2020 年)、Naseer 等人(2018 年)、Ioannidou 等人(2017 年)。鉴于这三个分割任务的重要性,本文专门关注三维分割的深度学习技术。本文的贡献总结如下:

1.据我们所知,这是第一篇全面介绍三维分割深度学习方法的调查论文,涵盖了所有三维数据表示,包括 RGB-D、投影图像、体素、点云、网格和三维视频。

2.本调查报告深入分析了不同类型三维数据分割方法的相对优缺点。

3.与现有的综述不同,本调查报告侧重于专为三维分割设计的深度学习方法,还讨论了典型的分割管道和应用领域。

4.最后,本调查报告在几个公共基准三维数据集上对现有方法进行了全面比较,得出了有趣的结论,并确定了有前途的未来研究方向。

        图 2 展示了本研究的组织结构。第 2 节介绍了一些术语和背景概念,包括流行的三维数据集和三维分割的评估指标。第 3 节回顾了三维语义分割方法,第 4 节回顾了三维实例分割方法。第 5 节介绍了现有的三维部件分割方法。第 6 节回顾了一些常见应用领域中使用的三维分割方法,包括三维视频分割和三维语义地图。第 7 节对几种常用数据集上的三维分割方法进行了性能比较,并给出了相应的数据分析。最后,第 8 节指出了未来有前景的研究方向,并对本文进行了总结。

s3dis语义分割精度,三维点云语义分割,3d

2. Terminology and Background Concept

        本节将介绍一些术语和背景概念,包括三维数据表示、流行的三维分割数据集和评估指标,以帮助读者轻松浏览三维分割领域。

2.1. 3D Segmentation Dataset

        数据集对于利用深度学习训练和测试三维分割算法至关重要。然而,私人收集和注释数据集既麻烦又昂贵,因为这需要专业领域的知识、高质量的传感器和处理设备。因此,利用公共数据集是降低成本的理想方法。对社区来说,采用这种方法还有另一个好处,即可以对各种算法进行公平比较。表 1 总结了一些最流行、最典型的数据集,涉及传感器类型、数据大小和格式、场景类别和注释方法。

s3dis语义分割精度,三维点云语义分割,3d

        这些数据集由不同类型的传感器采集,用于 3D 语义分割,其中包括 RGB-D 摄像机Silberman 和 Fergus (2011),Silberman、Hoiem、Kohli 和 Fergus (2012),Song、Lichtenberg 和 Xiao (2015),Hua、Pham、Nguyen、Tran、Yu 和 Yeung (2016),Dai、Chang、Savva、Halber、Funkhouser和Nießner(2017),移动激光扫描仪Roynard、Deschaud和Goulette(2018),Behley、Garbade、Milioto、Quenzel、Behnke、Stachniss和Gall(2019),静态地面扫描仪Hackel、Savinov、Ladicky、Wegner、Schindler 和 Pollefeys(2017)以及虚幻引擎 Brodeur、Perez、Anand、Golemo、Celotti、Strub、Rouat、Larochelle 和 Courville(2017)、Wu、Wu、Gkioxari和Tian(2018b)以及其他三维扫描仪 Armeni、Sener、Zamir、Jiang、Brilakis、Fischer和Savarese(2016),Chang、Dai、Funkhouser、Halber、Niebner、Savva、Song、Zeng和Zhang(2017)。其中,从虚幻引擎中获得的是合成数据集 Brodeur 等人(2017) Wu 等人(2018b),不需要昂贵的设备或注释时间。这些数据集还具有丰富的对象类别和数量。合成数据集拥有完整的 360 度 3D 物体,没有遮挡效应或噪声,而真实世界的数据集则存在噪声并包含遮挡物 Silberman 和 Fergus (2011)、Silberman 等人 (2012)、Song 等人 (2015)、Hua 等人 (2016)、Dai 等人 (2017)、Roynard 等人 (2018)、Behley 等人 (2019)、Armeni 等人 (2016)、Hackel 等人 (2017)、Chang 等人 (2017)。在三维实例分割方面,有一些有限的三维数据集,如 ScanNet Dai 等人(2017 年)和 S3DIS Armeni 等人(2016 年)。这两个数据集包含由 RGB-D 相机或 Matterport 分别获得的真实世界室内场景扫描。在三维部件分割方面,普林斯顿分割基准(PSB)Chen、Golovinskiy 和 Funkhouser(2009 年)、COSEG Wang、Asafi、Van Kaick、Zhang、Cohen-Or 和 Chen(2012 年)以及 ShapeNet Yi、Kim、Ceylan、Shen、Yan、Su、Lu、Huang、Sheffer 和 Guibas(2016 年)是最受欢迎的三个数据集。下面,我们将详细介绍五个著名的分割数据集,包括 S3DIS Armeni 等人(2016 年)、ScanNet Dai 等人(2017 年)、Semantic3D Hackel 等人(2017 年)、SemanticKITTI Chang 等人(2017 年)和 ShapeNet Yi 等人(2016 年)。图3显示了这些数据集的一些注释示例。

s3dis语义分割精度,三维点云语义分割,3d

S3DIS:在该数据集中,使用 Matterport 扫描仪无需任何人工干预即可获得完整的点云。该数据集由 271 个房间组成,隶属于 3 座不同建筑的 6 个大型室内场景(总面积达 6020 平方米)。这些区域主要包括办公室、教育和展览空间以及会议室等。

Semantic3D:包含利用静态地面激光扫描仪采集的总计约40亿个三维点,在现实世界的三维空间中覆盖范围最大可达160×240×30米。点云属于8个类别(如城市和农村),包含三维坐标、RGB信息和强度。与二维标注策略不同,三维数据标注很容易进行过度分割,即每个点都被单独分配到一个类别标签中。

SemanticKITTI:是一个大型室外数据集,包含28类详细的按点注释。在KITTI视觉基准Geiger、Lenz和Urtasun(2012年)的基础上,SemanticKITTI包含了该基准所有22个序列的注释,其中包括43K次扫描。此外,该数据集还包含旋转激光传感器的完整水平360视角的标签。

ScanNet :数据集对场景理解研究特别有价值,因为其注释包含估计的校准参数、相机姿势、三维表面重建、纹理网格、密集的对象级语义分割和 CAD 模型。该数据集包括真实世界环境中带有注释的 RGB-D 扫描。在 707 个不同地点采集的 1513 次扫描中共有 250 万张 RGB-D 图像。在对 RGB-D 图像进行处理后,使用 Amazon Mechanical Turk 执行了注释人工智能任务。

ShapeNet :数据集采用了一种可扩展的新方法,可对海量三维形状集合进行高效、准确的几何标注。新颖的技术创新明确地模拟并减少了标注工作的人力成本。研究人员在 ShapeNetCore 中的形状类别中为 31963 个模型创建了详细的按点标注,并将基于特征的分类器、点对点对应关系和形状对形状的相似性结合到对形状网络的单一 CRF 优化中。

2.2. Evaluation Metrics

        不同的评价指标可以证明分割方法的有效性和优越性,包括执行时间、内存占用和准确性。然而,很少有作者提供有关其方法的执行时间和内存占用的详细信息。本文主要介绍准确度指标。

        对于三维语义分割来说,总体准确度(OAcc)、平均类别准确度(mAcc)和平均类别交集大于联合(mIoU)是衡量分割方法准确度最常用的指标。为了便于解释,我们假设总共有 K + 1 个类别,而 pij 是类别 i 中暗示属于类别 j 的最小单位(如像素、体素、网格、点)。换句话说,pii 代表真阳性,而 pij 和 pji 分别代表假阳性和假阴性。

        总体准确率是一个简单的指标,计算的是真正被分类的样本数量与样本总数之间的比率。

s3dis语义分割精度,三维点云语义分割,3d

        平均准确度是对 OAcc 的扩展,计算每个类别的 OAcc,然后对类别总数 K 求平均值。

s3dis语义分割精度,三维点云语义分割,3d

        平均交叉比联合是语义分割的一个标准指标。它计算的是基本真实值和预测值之间的交集比率,以 K 类总数为平均值。

s3dis语义分割精度,三维点云语义分割,3d

        在三维实例分割中,还经常使用平均精度(AP)和平均类精度(mAP)。假设 LI ,I∈ [0, K] 每类中的实例,而 cij 是实例 i 推断属于实例 j 的点的数量(i = j 代表正确分割,i≠ j 代表错误分割)。

         平均精度是另一个简单的分割指标,它计算真阳性样本与阳性样本总数之间的比率。

s3dis语义分割精度,三维点云语义分割,3d

平均值平均精度是 AP 的扩展,它先计算每个班级的 AP,然后对总的 AP 求平均值。

s3dis语义分割精度,三维点云语义分割,3d

        在三维零件分割中,最常用的是整体平均类别联合交集(mIoUcat)和整体平均实例联合交集(mIoUins)。为了便于解释,我们假设每个实例中都有 MJ , J ∈ [0, LI ]个零件,而 qij 是零件 i 中被推断为属于零件 j 的点的总数,因此 qii 代表真阳性的数量,而 qij 和 qji 分别是假阳性和假阴性。

        总体平均类别交集大于联盟是一个用于零件分割的评价指标,用于衡量 K 个类别的平均 IoU。

s3dis语义分割精度,三维点云语义分割,3d

总体平均实例交集大于联盟,用于部分分割,衡量所有实例的平均 IoU。

s3dis语义分割精度,三维点云语义分割,3d文章来源地址https://www.toymoban.com/news/detail-828452.html

到了这里,关于【最新综述】史上最全面的3D语义分割综述(上)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 史上最全面的UE4 文件操作,打开,读、写,增、删、改、查

    创建一个C++项目,并且创建一个C++蓝图库函数,并且加入头文件 #include \\\"HAL/PlatformFilemanager.h\\\" #include \\\"Misc/FileHelper.h\\\" #include \\\"Misc/Paths.h\\\" #include \\\"Developer/DesktopPlatform/Public/DesktopPlatformModule.h\\\" #include \\\"Developer/DesktopPlatform/Public/IDesktopPlatform.h\\\" #include \\\"Runtime/Core/Public/HAL/FileManagerGeneric.h

    2023年04月09日
    浏览(43)
  • 史上最全事件相机DVS/Event-based Camera的介绍和分析综述文章

    最近本人在看一些事件相机的论文和研究。下面将看的基础内容整理一下,先是一些基本的event camera原理和发展的介绍,后面介绍算法。欢迎讨论! 模拟生物视网膜特性的仿生相机——事件相机DVS(Dynamic Vision Sensor),该相机具有更宽的动态范围,输出较传统相机而言更稀疏

    2023年04月11日
    浏览(68)
  • 史上最全最新Ubuntu20.04安装教程(图文)

    总的来说,安装Ubantu包含以下三个步骤: 一、安装虚拟机 二、Ubuntu镜像下载 三、虚拟机配置 一、安装虚拟机 选择安装VMware Workstation,登录其官网下载安装包,链接如下: 下载 VMware Workstation Pro​www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html​编辑 下载后运行安

    2024年02月05日
    浏览(43)
  • Tomcat安装及配置教程(保姆级)【最新史上最全版】

    (以tomcat-9.0.62为例:) 可以从官网下载安装包: 输入网址进入官网 选择版本10,版本9,或者版本8,都可以,这里下载的版本9 不想去官网的直接百度网盘自提: 链接:https://pan.baidu.com/s/1_wWx48RVn_BSk3eXneAZYw?pwd=aijy 提取码:aijy 选择下载64-Bit Windows zip(Win64),根据电脑版本选

    2024年02月10日
    浏览(42)
  • 史上最全的2023最新大数据面试笔记【200+页,10w+字】

    简介 :我本硕都是双非计算机专业,研二开始学习大数据开发的相关知识,从找实习到秋招,投递过100+公司,拿到过 10+ 的offer,包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂,现在已经签约 蚂蚁数据研发工程师 。依稀还记得刚开始找工作,从零开始准备八股文的时

    2024年02月06日
    浏览(42)
  • 3D Tiles语义分割流水线

    Dylan Chua 和 Anne Lee 开发了一个处理管线,用于对 3D Tiles 中包含的 GL 传输格式 (glTF) 模型进行语义分割。 该管道读取并遍历 3D Tileset,以输出包含元数据的经过转换的划分对象集。 该项目为 3D 语义分割器提供了最小可行产品,作为各种应用程序的概念验证。 他们接受模拟和培

    2024年04月16日
    浏览(39)
  • swin unetr的3D语义分割

    基于monai库。其实我不是很喜欢这种,可扩展性太差了,除非说你想快速在自己的数据集上出结果。但是它的transform可以对3d医学图像增强操作,比torch的transform强一点,因为它的数据增强输入是(x,y,z)h,w,d格式的,我还没有试过单独用它的transform来结合torch训练。 就这几个文

    2024年02月12日
    浏览(87)
  • 最新最全面的Spring详解(三)——Resources,验证、数据绑定和类型转换与Spring表达式语言(SpEL)

    本文为 【Spring】Resources与Spring表达式语言(SpEL) 等相关知识,下边将对 Resources (包含: Resource接口 、 内置的 Resource的实现 、 ResourceLoader接口 、 应用环境和资源路径 ), 验证、数据绑定和类型转换 (包含: BeanWrapper 、 PropertyEditor属性编辑器 、 类型转换 、 配置 DataB

    2023年04月26日
    浏览(43)
  • 史上最全最新微信小程序自动化教程,看过的都点赞了

    微信小程序作为现在流行的一种应用载体,很多小伙伴都有对其做自动化测试的需求,由于腾讯系QQ、微信等是基于腾讯自研X5内核,不是谷歌原生webview,所以调试会有些许差异(现在很多app产品也开始流行采用X5内核作为其内嵌web浏览服务)。 需要注意的是X5内核只支持手机

    2024年02月11日
    浏览(36)
  • 3D点云之语义分割(相关官方示例介绍)

    之前在博客中提到,会考虑用深度学习来对3D点云进行处理,接下来迈出脚步,先整几个例子来熟悉它。例子原型来源于官网,博主在其基础上做了一些代码修改。 1. Keras中的资源 Code examples 2.openvinotoolkit open_model_zoo/demos at master · openvinotoolkit/open_model_zoo · GitHub 主要参考官网

    2024年02月06日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包