关于Matterport3D的一些学习-Toy模板网

这篇具有很好参考价值的文章主要介绍了关于Matterport3D的一些学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这是一个大型RGB-D数据集，包含90个建筑规模场景，由194400个RGB-D图像组成的10800个全景图构成。注释提供有表面重建、相机姿势以及2D和3D语义分割。精确的全局对齐和整个建筑的全面、多样化的全景视图集实现了各种监督和自我监督的计算机视觉任务，包括关键点匹配、视图重叠预测、颜色的正常预测、语义分割和区域分类。

1 Introduction

这是一个室内场景集，该数据集由在家庭环境中使用Matterport3D相机在10800全景中拍摄的194400个RGB-D图像组成。Matterport3D数据集包含了每个视点的深度和彩色360°全景图像。它在整个环境中均匀地采样了人高视点，并提供了与纹理表面重建相一致和对齐的相机姿态。此外，该数据集还提供了对区域和物体进行实例级别的语义分割，并且收集了来自私人住宅生活空间的数据。

在本文中，我们利用该数据集研究了5个任务。通过在建筑尺度上进行精确的全局对齐，可以训练出最先进的关键点描述符，能够稳健地匹配来自不同摄像机视角的关键点。全景和全面的视点采样提供了大量的闭环实例，使得可以通过预测视图重叠来学习闭环检测。在多样化场景中，通过高质量深度估计的表面法线使得可以训练出从彩色图像中估计法线的模型，其性能超过了以前的模型。将图像与表面网格进行全局一致的注册有助于语义注释，从而实现了对物体和区域类别的高效三维界面注释，通过将标签投影到图像中可以训练深度网络进行语义分割。对于每个任务，我们提供了使用现有最先进算法的变体的基准结果，展示了Matterport3D数据的优势；我们希望Matterport3D能够激发未来在许多场景理解任务上的研究工作。

2 The Matterport3D Dataset

本文介绍了一个新的建筑规模场景的RGB-D数据集，并描述了一组可以从中训练和测试的场景理解任务。我们在本节中描述了数据，并讨论了它与以前的工作有何不同。

2.1. Data Acquisition Process

Matterport的数据采集过程使用一个三脚架相机设备，该设备具有三个颜色和三个深度相机，分别指向略微向上、水平和略微向下。对于每个全景图，它都会围绕重力方向旋转到6个不同的方向，在每个方向停下来，从3个RGB相机中的每一个相机获取HDR照片。3个深度相机在钻机旋转时连续采集数据，将其集成在一起，合成与每个彩色图像对齐的1280x1024深度图像。每个全景图的结果是18个RGB-D图像，其投影中心几乎重合在大约人类观察者的高度。

对于数据集中的每个环境，操作员在整个可步行的环境平面图中捕捉一组均匀间隔约2.5米的全景图（图2）。用户使用iPad应用程序标记窗口和镜子，并将数据上传到Matterport。Matterport然后通过以下方式处理原始数据：1）将每个全景图中的图像拼接到适合全景观看的“skybox”中，2）估计了每个图像的全局6自由度姿态，3）重建了一个包含环境中所有可见表面的单个纹理网格。（通过对每个图像进行全局对齐和姿态估计，我们可以将每个图像的深度信息和纹理信息融合到一个整体的三维模型中。这个三维模型包含了环境中的墙壁、地板、天花板以及其他可见的物体表面。通过将每个图像的深度图像和纹理映射到三维模型上，我们可以生成一个具有纹理的完整的环境模型。这个模型可以用于进一步的分析、渲染和虚拟导航等应用）。

每个场景的结果是一组1280x1024的RGBD图像（带有HDR颜色），每个图像都有一个6自由度的相机姿态估计，以及每个全景图组中的18个图像的天空盒和整个场景的纹理网格。总共，该数据集包含90座建筑物，共有194,400个RGB-D图像，10,800个全景图和24,727,520个纹理三角形；我们提供了使用[21]和[25]获得的纹理网格重建。

matterport3d,小记,学习,计算机视觉,人工智能

2.2. Semantic Annotation

我们通过以下步骤收集3D的实例级语义注释：首先为每个房屋创建一个平面图注释，从平面图中提取类似房间的区域，然后使用众包绘图界面在每个区域中注释对象实例。

我们语义注释过程的第一步是通过指定每个类似房间的3D空间范围和语义类别标签，将每栋建筑物分解为区域组件。注释者使用一个简单的交互工具，注释者选择一个类别，并在每个区域的地板上绘制一个2D多边形（见图3）。然后，该工具将多边形捕捉到平面表面（墙壁和地板）并将其延伸到天花板。

第二步是标记每个区域中对象的3D表面。为此，我们使用筛选的Poisson表面重建[6]为每个区域提取一个网格。然后，我们使用Dai等人的ScanNet众包界面[7]来“绘制”三角形，以分割和命名每个区域中的所有对象实例。我们首先在Amazon Mechanical Turk（AMT）上收集了一组初始标签，然后由十个专家注释者进行完善、修正和验证。我们确保高质量的标注标准以及高覆盖率的注释。

3D分割包含总共50,811个对象实例的注释。由于AMT工作者可以提供自由文本标签，因此有1,659个独特的文本标签，我们对其进行后处理，建立了一个与WordNet同义词集映射的40个对象类别的规范集合。图5显示了按语义类别分布的对象情况，图4显示了一些示例，以彩色网格的形式呈现。

（进行3D实例级语义注释的过程。首先，通过绘制2D多边形来标注每个房间区域的平面图，并将多边形转换为3D模型。然后，使用众包界面来标注每个区域中对象的3D表面。最后，收集了大量的标注数据，并对标签进行了后处理，以建立一个规范的对象类别集合。这些注释数据对于理解环境中的物体和区域非常有用）

matterport3d,小记,学习,计算机视觉,人工智能

2.3. Properties of the Dataset

RGB-D全景图。先前的全景数据集要么根本没有提供深度[42]，要么提供从网格合成的近似深度[1]。Matterport3D包含18个视点的1280x1024彩色和深度图像，覆盖约3.75sr（除北极和南极外的整个球体），以及为与以全景中心为中心的立方体侧面对齐的向外视图重建的“skybox”图像。这些RGB-D全景图为识别场景类别、估计区域布局、学习上下文关系等提供了新的机会（见第3.4节）

精确的全局对齐。先前的RGB-D数据集提供了关于相机姿势的全局对齐的有限数据。针对SLAM应用[8]的一些数据集提供了覆盖部分房间的跟踪相机姿态[30]或单个房间的估计相机姿态[7]，Armeni等人[2]提供了3栋建筑的6层的全局注册相机姿态。我们提供的全局注册图像覆盖了90栋重建建筑的所有楼层。尽管我们没有数据集的ground-truth相机姿态，因此无法客观地测量误差，但我们主观估计相应表面点之间的平均配准误差为1cm或更小（见图6）。存在一些大至10厘米或更大的表面错位，但这种情况很少见，通常适用于视点相距几米的成对图像。

matterport3d,小记,学习,计算机视觉,人工智能

综合视点采样。以前的数据集包含为“照片视点”[35]周围的视图捕获的一小组图像，或旨在近距离扫描表面的一系列视频图像[7]。我们的包含从视点空间的全面、稀疏采样中捕获的全景图像。全景图像的间距几乎均匀，间距为2.25米±0.57米，因此最合理的人类视点位于全景中心1.13米以内。这种对视点空间的全面采样为学习机器人或可穿戴传感器在其中导航时可能遇到的从任意视点看到的场景提供了新的机会（见第3.2节）。

固定式摄像机。大多数RGB-D图像数据集大多是用手持摄像机拍摄的，因此存在实时扫描典型的运动模糊和其他伪影；例如，姿态误差、颜色与深度的错位，并且通常包含覆盖范围有限的基本不完整的场景。我们的数据集包含从安装在三脚架上的固定相机在静态场景中获取的高动态范围（HDR）图像，因此没有运动模糊。这种特性为研究场景中图像的精细尺度特征提供了新的机会，例如训练非常精确的关键点或边界检测器。

每个表面的多个不同视图。以前的RGBD数据集为每个曲面面片提供了有限的视图范围。大多数人都明确尝试覆盖每个表面补丁一次，以提高场景重建的效率或减少场景理解数据集中的偏差。我们的提供了从各种角度和距离的曲面面片的多个视图（见图7）。每个表面补丁平均由11台摄像机进行观察（见图8）。所有像素的整体深度范围平均为2.125m，标准偏差为1.4356m，角度范围平均为42.584◦ 标准偏差15.546◦ . 这种视图的多样性和多样性使我们有机会学习预测与视图相关的表面特性，如材料反射率[4，26]，并在学习与视图无关的表示时，学习排除视图依赖性，如面片描述符[45，46]和法线[9，23，3，41，48]（见第3.3节）。

matterport3d,小记,学习,计算机视觉,人工智能

整个建筑物。以前的RGB-D数据集提供了单间或相邻房间[44，7]的小集合或建筑物的单层[2]的数据。我们提供了90栋整栋建筑的数据。平均而言，每栋扫描建筑有2.61层，占地面积2437.761平方米，建筑面积517.34平方米。提供对房屋整体的扫描，有机会了解长期背景，这对整体场景理解和自主导航至关重要。

个人生活空间。以前的RGB-D数据集通常仅限于学术建筑[1]。我们的作品包含从私人住宅获得的图像（有权将其分发用于学术研究）。由于隐私问题，这种类型的数据很难捕获和分发，因此它对于了解大多数虚拟现实、老年人辅助、家庭机器人和其他消费者级场景理解应用所针对的个人生活空间的类型非常有价值。

规模。我们相信Matterport3D是可用的最大的RGBD数据集。BuldingParser数据集[2]提供了占地6020m2的270个房间的数据。ScanNet[7]提供的图像覆盖了707个不同房间中78595m2的表面积，34453m2的占地面积。我们的数据集覆盖了2056个房间的219399平方米的表面积，占地面积为46561平方米。这种规模为训练数据密集型算法提供了新的机会。

3. Learning from the Data

以下小节描述了利用Matterport3D数据集的这些独特属性来提供学习场景表示的新方法的几个任务。对于所有实验，我们将数据集分为61个场景进行训练，11个场景进行验证，18个场景进行测试（详见补充材料）。

3.1. Keypoint Matching

匹配关键点以建立图像数据之间的对应关系是许多应用的重要任务，包括映射、姿态估计、识别和跟踪。随着神经网络最近的成功，一些工作已经开始探索使用深度学习技术来训练最先进的关键点描述符，这可以促进关键点与其局部图像特征之间的鲁棒匹配[45，34，16]。为了能够训练这些深度描述符，先前的工作利用了现有RGB-D重建数据集中发现的大量对应关系[29，46]。

通过RGB-D数据的精确全局对齐和全面的视图采样，我们的Matterport3D数据集提供了检索图像帧之间高质量、宽基线对应关系的独特机会（见图9）。我们证明，通过在这些对应关系上预训练深层局部描述符，我们可以学习有用的特征，从而能够训练更强的描述符。更具体地说，我们训练卷积神经网络（ResNet-50[18]）将输入图像块映射到512维描述符。与[19]的现有技术类似，我们以三元组暹罗方式训练ConvNet，其中每个训练示例包含两个匹配图像补丁和一个不匹配图像补丁。匹配是从SIFT关键点位置提取的，这些位置在世界空间中相互投影到0:02m以内，并且世界法线在100以内◦ . 为了监督三元组模型，我们使用L2铰链嵌入损失进行训练。

为了进行评估，我们对61个Matterport3D场景和17个SUN3D场景的对应关系进行了训练，并对8个未展示的SUN3D场景进行了地面实况对应关系测试。SUN3D地面实况对应关系和注册从[15]中获得，使用从[46]中分离的训练和测试场景。与[16]中一样，我们测量关键点匹配性能，在95%的召回率下，假阳性率（错误）越低越好。我们训练了三个模型——一个仅在Matterport3D数据上训练，一个仅对SUN3D数据进行训练，另一个在Matterport 3D上预训练并对SUN3D进行微调。总体而言，我们表明，在Matterport3D上的预训练产生了一个描述符，该描述符在SUN3D基准测试上实现了更好的关键点匹配性能。

3.2. View Overlap Prediction

识别以前访问过的场景是许多重建管道的基本步骤，即检测环路闭合。虽然以前的RGB-D视频数据集可能只有很少的循环闭合实例，但由于捕捉过程的全景性质和全面的视点采样，Matterport3D数据集在图像帧之间有大量的视图重叠。这种大量的回路闭合提供了一个训练深层模型来识别回路闭合的机会，该模型可以被纳入未来的SLAM重建管道中。

3.3. Surface Normal Estimation

估计曲面法线是场景重建和场景理解的核心任务。给定彩色图像，任务是估计每个像素的表面法线方向。在过去[9，23，3，41，48]中，使用RGB-D数据集对网络进行了执行该任务的训练。然而，从商品RGB-D相机获取的深度通常非常嘈杂，因此提供较差的训练数据。相比之下，Matterport相机在为每个全景旋转时连续获取深度，并将所有数据合成与颜色对应的深度图像，从而产生噪声较小的法线。

在本节中，我们将考虑Matterport3D数据集中的法线是否可以用于在其他数据集上训练更好的法线预测模型。在我们的研究中，我们使用了Zhang等人[48]提出的模型，该模型在NYUv2数据集上实现了最先进的性能。该模型是一个完全卷积神经网络，由编码器和纯对称解码器组成，编码器从一开始到第一个完全连接层与VGG-16共享相同。该网络还包含快捷链接，用于将高分辨率特征从编码器复制到解码器，以引入细节，并强制上池化使用来自相应最大池化层的相同采样掩码。

我们使用Matterport3D数据作为具有高质量表面法线图的大规模真实数据集进行预训练，并使用各种训练策略训练模型。对于Matterport3D数据，我们只使用水平和向下看的视图，因为它们更接近于人类观察者选择观看场景的标准视图。表3显示了表面法线估计的性能。可以看出，使用合成数据和Matterport3D数据预训练的模型（最后一行）优于仅使用合成数据的模型（第二行），并实现了最佳性能。

我们在表4中显示了跨数据集的准确性。我们通过首先对合成数据进行预训练，然后对每个数据集进行微调来训练模型；即NYUv2和Matterport3D。我们在每个数据集的测试集上评估两个模型。在每个数据集上训练的模型在同一数据集上测试时提供了最佳性能。然而，NYUv2型号在Matterport3D上测试时表现不佳，而Matterport3D-型号在NYUv2上仍然表现相当好。这表明，在Matterport3D数据上训练的模型具有更高的深度数据质量和视角多样性，具有更好的泛化能力。

matterport3d,小记,学习,计算机视觉,人工智能

3.4. Region-Type Classification

场景分类通常被视为高级场景理解和推理的第一步。借助所提出的数据集，其中包含各种各样的室内环境，我们将问题集中在室内区域（房间）分类上 -- 给定一张图像，根据包含其视点的区域的语义类别对图像进行分类（例如，相机位于卧室或走廊）。

与语义体素标注问题不同，区域级别的分类需要理解超出单个视图观察的全局上下文。虽然大多数场景分类数据集[43, 49]都侧重于单个视图的场景分类，但该数据集提供了一个独特的机会来研究图像视野和场景分类性能之间的关系。

作为该任务的真值，我们使用人们提供的3D区域注释，如第2.2节所述。我们为此实验选择了数据集中最常见的12个类别。我们根据包含它的区域提供的标签为每个全景图或单个图像分配类别标签。然后，我们训练一个卷积神经网络（ResNet-50 [18]）来对每个输入图像进行分类，以预测区域类型。

表5显示了分类准确性（每个区域类型的真正例数除以总实例数）。通过比较[single]和[pano]之间的准确性，我们可以看到在大多数区域类型中，通过增加图像视野，性能有所提高。休息室和家庭房间的较低性能是由于与其他相邻区域的混淆（例如，它们经常与相邻的走廊和厨房混淆，后者在更宽的视野下更可见）。

（该段描述了作者们使用所提出的数据集进行室内区域分类的实验。他们使用人们提供的3D区域注释作为任务的真值，并选择了数据集中最常见的12个类别。然后，他们训练了一个卷积神经网络来对每个输入图像进行分类，以预测所在区域的类型。通过比较不同图像视野下的分类准确性，他们发现增加图像视野可以提高大多数区域类型的分类性能。休息室和家庭房间的较低性能是由于与其他相邻区域的混淆。）

3.5. Semantic Voxel Labeling

语义体素标注是语义场景理解的基本任务，即为每个体素预测一个语义对象标签，它类似于在3D空间中进行图像分割。我们遵循ScanNet [7]中介绍的语义体素标注任务的描述。

对于训练数据的生成，我们首先将训练场景转化为一个密集的体素网格，每个体素的大小为2cm³，并使用对象类别注释为每个体素分配其占用情况和类别标签。然后，我们随机从场景中提取大小为1.5m×1.5m×3m（31×31×62个体素）的子体积。如果子体积中的体素占用率低于2％或其中占用的体素中的有效注释低于70％，则会拒绝该子体积。每个子体积都会进行上对齐，并进行8个旋转进行数据增强。

我们使用了20个对象类别标签，并使用ScanNet [7]的网络架构进行训练，使用了52,355个子体积样本（418,840个增强样本）。表6显示了我们在Matterport3D测试场景上进行语义体素标注的分类准确性，并在图12中展示了一些视觉结果。

翻译及理解：该段描述了作者们使用ScanNet数据集进行语义体素标注的实验。他们首先将训练场景转化为密集的体素网格，并使用对象类别注释为每个体素分配占用情况和类别标签。然后，他们随机提取子体积进行训练，并进行数据增强。他们使用了20个对象类别标签，并使用ScanNet的网络架构进行训练。他们在Matterport3D测试场景上展示了语义体素标注的分类准确性，并提供了一些视觉结果。

matterport3d,小记,学习,计算机视觉,人工智能

4 Conclusion

我们介绍了Matterport3D，这是一个包含90个建筑规模场景的大型RGB-D数据集。我们为每个建筑物的完整3D重建提供了实例级别的语义分割。结合多样化、全景的RGB-D视图的独特数据特征、建筑规模的精确全局对齐以及各种室内生活空间的全面语义上下文，Matterport3D可以支持多种计算机视觉任务。我们证明了Matterport3D数据可以用于在几个场景理解任务上实现最先进的性能，并发布了该数据集供研究使用。

参考文献：1709.06158.pdf (arxiv.org)

文章来源地址https://www.toymoban.com/news/detail-798805.html

到了这里，关于关于Matterport3D的一些学习的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！