2D-3D配准指南[方法汇总]【入门指导向】(一)问题介绍+LCD跨域描述子+Triplet loss

这篇具有很好参考价值的文章主要介绍了2D-3D配准指南[方法汇总]【入门指导向】(一)问题介绍+LCD跨域描述子+Triplet loss。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

近年来,采用三维和二维数据的应用层出不穷,它们都需要将三维模型二维图像进行匹配。大型定位识别系统可以估算出照片拍摄的位置。在全球定位系统可能失灵的情况下,地理定位系统可以进行地点识别,对自动驾驶非常有用。此外,法医警察也可以利用该系统破案或防止袭击。
本文的目标是总结利用深度学习方法将二维图像到三维点云进行配准的方法。
整个文章系列将介绍LCD、2D-3D MatchNet、三元损失函数、VGG-Net、图神经网络等内容。

2d平面配准,CNN,3d,算法,python,vr,cnn

1 引言

1.1 问题定义

近年来,增强现实应用不断涌现。这类应用需要将三维模型与二维图像进行匹配。同样,大规模位置识别系统可能需要定位拍摄 2D 图像的准确位置。为此,必须对二维和三维数据进行注册或对齐。如果不能确保被对齐的二维和三维数据是同一现实的相同表现形式,即它们之间存在匹配关系,则无法执行此类操作。因此,在通过 2D-3D 注册对齐匹配对之前,有必要完成 2D-3D 匹配任务。

寻找在图像patch和点云patch上执行2D-3D匹配的稳健描述符的问题可以表述如下:

I ∈ R W × H × 3 I \in \mathbb{R}^{W \times H \times 3} IRW×H×3为大小为 W × H W \times H W×H 的彩色图像patch,在RGB空间中表示。
P ∈ R N × 6 P \in \mathbb{R}^{N \times 6} PRN×6 为包含N个点的彩色点云patch,其中每个点包括其位置数据 ( x , y , z ) ∈ R 3 (x, y, z) \in \mathbb{R}^3 (x,y,z)R3 和RGB信息。

需要注意的是,虽然图像数据是有结构的,其中的像素必须保持有序,但点云体积是无序坐标的集合。对于N个点的点云,数据集中有 N ! N! N!种可能的排列方式。然而,由于点云的结构保持不变,因此其顺序是无关紧要的。
2d平面配准,CNN,3d,算法,python,vr,cnn

一个进行2D-3D匹配的模型希望找到两个映射 f : R W × H × 3 → D f: \mathbb{R}^{W \times H \times 3} \to D f:RW×H×3D g : R N × 6 → D g: \mathbb{R}^{N \times 6} \to D g:RN×6D 以便图像和点云数据都可以通过共享空间 D ⊆ R D D \subseteq \mathbb{R}^D DRD中的向量 embeddings \text{embeddings} embeddings来表示,其中 D D D是跨领域空间的维数。函数 f f f g g g 可以通过神经网络建模。
2d平面配准,CNN,3d,算法,python,vr,cnn

对于描述图像和点云 I , P I, P I,P 组成的一对的每对特征匹配对 ( d I , d P ) ∈ D (d_I, d_P) \in D (dI,dP)D,其目标是通过距离函数 F F F最小化它们之间的距离,使得 F ( d I , d P ) F(d_I, d_P) F(dI,dP) 达到最小。
针对这一问题本文将着重介绍两种方法——LCD和2D-3D MatchNet。

1.2 LCD: Learned Cross-Domain Descriptors

[1] Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma
Roig, and Sai-Kit Yeung. LCD: Learned cross-domain descriptors for 2D-3D matching.
In AAAI Conference on Artificial Intelligence, 2020.

在LCD的工作中,提出了一种基于深度学习的学习2D-3D本地跨领域描述符的方法。该方法基于两个联合训练的自编码器。此外,公开了一个2D-3D对应关系的数据集。

1.2.1 网络架构

LCD采用基于双分支自编码器的架构,通过三个损失进行训练。其中两个损失分别用于训练每个分支。一个分支被训练为将输入图像patch编码成向量embeddings,而另一个自编码器对输入点云patch执行相同的操作。最终,采用三元损失以最小化两个分支之间的差异,使得生成的embeddings在2D和3D数据之间共享相似性。
2d平面配准,CNN,3d,算法,python,vr,cnn
2D分支
2D分支能够将输入图像数据编码成具有固定大小的embeddings,该过程在编码器中完成。它接受大小为64 × 64的图像patch作为输入,通过一系列的2D卷积操作并使用ReLU激活进行前向传播。在最后,一个全连接层将计算得到的特征映射转换为大小为D的单维向量,然后进行L2归一化。为了解码生成的embeddings并获取原始图像,向量被输入到一个解码器架构中,通过一系列的反卷积操作并使用ReLU进行数据传播。
点云自编码器
点云自编码器具有类似的行为。点云描述符是通过PointNet架构创建的,该架构将输入的3D数据转化为大小为D的1D向量。原始点云可以通过解码器中的全连接层进行恢复。

1.2.2 损失函数

对图像自编码器的训练通过光度损失(Photometric loss)来实现,该损失计算输入图像与解码器输出的重构图像之间的均方误差。在下面给出的公式中, i i i表示输入图像的每个像素。

L m s e = 1 W × H ∑ i = 1 W × H ∣ ∣ I i − I ˉ i ∣ ∣ 2 L_{mse} = \frac{1}{W \times H} \sum_{i=1}^{W \times H} ||I_i - \bar{I}_i||^2 Lmse=W×H1i=1W×H∣∣IiIˉi2

点云自编码器通过Chamfer损失进行训练,该损失基于Chamfer距离:

L c h a m f e r = max ⁡ ( 1 ∣ P ∣ ∑ p ∈ P min ⁡ q ∈ P ˉ ∥ p − q ∥ 2 , 1 ∣ P ˉ ∣ ∑ p ∈ P ˉ min ⁡ q ∈ P ∥ p − q ∥ 2 ) L_{chamfer} = \max \left( \frac{1}{|P|} \sum_{p \in P} \min_{q \in \bar{P}} \|p - q\|^2, \frac{1}{|\bar{P}|} \sum_{p \in \bar{P}} \min_{q \in P} \|p - q\|^2 \right) Lchamfer=max P1pPqPˉminpq2,Pˉ1pPˉqPminpq2

光度损失和Chamfer损失分别用于训练自编码器以生成用于表示图像patch点云的向量embeddings。然而,为了确保这些embeddings之间存在相似性,以便在测试应用中正确识别图像和点云embeddings的正匹配,需要共享相似性。为了强制执行这种相似性,两个自编码器在同一时间联合训练,使用Triplet loss:

L t r i p l e t = max ⁡ ( F ( d a , d p ) − F ( d a , d n ) + m , 0 ) L_{triplet} = \max \left( F(d_a, d_p) - F(d_a, d_n) + m, 0 \right) Ltriplet=max(F(da,dp)F(da,dn)+m,0)

其中,m是一个边距参数,F是距离函数(定义为欧氏距离)。在训练时,损失的组合计算如下:

L = α ⋅ L m s e + β ⋅ L c h a m f e r + γ ⋅ L t r i p l e t L = \alpha \cdot L_{mse} + \beta \cdot L_{chamfer} + \gamma \cdot L_{triplet} L=αLmse+βLchamfer+γLtriplet

这意味着在训练阶段的每个批次计算中,使用权重 α = β = γ = 1 \alpha = \beta = \gamma = 1 α=β=γ=1 计算方程式 L L L

2. Triplet loss

2D-3D配准中的Triplet Loss

大多数最先进的2D-3D配准深度学习技术在其不同变体中使用了Triplet Loss,因此,探索这种损失机制的工作原理以及它在当前任务中的用处可能是有趣的。
Triplet Loss首次在面部识别任务中被引入,它被用作通过孪生网络生成面部描述符的新方法。在监督学习中,通常存在固定数量的类别。然而,有时问题需要网络能够处理可变数量的类别。例如,在2D-3D配准任务中,每个图像点云匹配对都会成为一个唯一的类别。

在这项工作的背景下,想法是创建由图像锚点 x a I x_a^I xaI、其匹配点云(正点云) x M + x^+_M xM+ 和数据库中的非匹配点云 x M − x^-_M xM 组成的三元组。这些三元组以给定大小的批次输入到网络中,该网络为每个三元组的三个元素生成向量 embeddings \text{embeddings} embeddings。然后,为每个三元组创建的描述符被评估在Triplet Loss函数中。该函数确保匹配的图像- point cloud \text{point cloud} point cloud对的 embeddings \text{embeddings} embeddings embeddings \text{embeddings} embeddings空间中彼此接近并与其他聚类分离。因此,给定一个三元组元组的Triplet Loss函数返回的值会在锚点图像和正点云互相远离而负点云靠近时很高。相反,如果图像锚点和正点云的描述符彼此接近且与负点云的 embeddings \text{embeddings} embeddings远离,则该值会很低。
2d平面配准,CNN,3d,算法,python,vr,cnn
数学上, embeddings \text{embeddings} embeddings f ( x ) ∈ R n f(x) \in \mathbb{R}^n f(x)Rn 表示,其中函数 f f f 生成一个n维的单位范数描述符( ∥ f ( x ) ∥ 2 = 1 \lVert f(x) \rVert_2 = 1 f(x)2=1),从输入结构(可以是图像patch或点云) x x x 中生成。Triplet Loss 强制这些 embeddings \text{embeddings} embeddings之间的距离满足 d pos < d neg → d ( f ( x a I ) , f ( x M + ) ) ≪ d ( f ( x a I ) , f ( x M − ) ) d_{\text{pos}} < d_{\text{neg}} \rightarrow d(f(x_a^I), f(x^+_M)) \ll d(f(x_a^I), f(x^-_M)) dpos<dnegd(f(xaI),f(xM+))d(f(xaI),f(xM))。如果在正负对之间强制使用边距 α \alpha α 并且使用欧氏距离进行距离计算,则条件变为:
∥ f ( x a I ) − f ( x M + ) ∥ 2 2 + α < ∥ f ( x a I ) − f ( x M − ) ∥ 2 2 \lVert f(x_a^I) - f(x^+_M) \rVert_2^2 + \alpha < \lVert f(x_a^I) - f(x^-_M) \rVert_2^2 f(xaI)f(xM+)22+α<f(xaI)f(xM)22
∀ ( f ( x a I ) , f ( x M + ) , f ( x M − ) ) ∈ T \forall (f(x_a^I), f(x^+_M), f(x^-_M)) \in \mathbb T (f(xaI),f(xM+),f(xM))T
其中 T \mathbb T T 是数据集中所有可能的三元组组合的集合,数据集的大小为 N N N
要最小化的损失函数是:
L = ∑ i N [ ∥ f ( x a I ) − f ( x M + ) ∥ 2 2 − ∥ f ( x a I ) − f ( x M − ) ∥ 2 2 + α ] + L = \sum_{i}^N \left[ \lVert f(x_a^I) - f(x^+_M) \rVert_2^2 - \lVert f(x_a^I) - f(x^-_M) \rVert_2^2 + \alpha \right]_+ L=iN[f(xaI)f(xM+)22f(xaI)f(xM)22+α]+
基于损失的定义,在训练期间可以构建三种不同的三元组类别:
• 简单三元组Easy triplets:损失值为0的三元组。
• 困难三元组Hard triplets:负点云 embeddings \text{embeddings} embeddings embeddings \text{embeddings} embeddings空间中比正点云描述符更接近图像锚点的三元组。
• 半困难三元组Semi-hard triplets:负点云 embeddings \text{embeddings} embeddings embeddings \text{embeddings} embeddings空间中不比正点云描述符更接近图像锚点,但仍有正的损失值。
根据负点云描述符相对于锚点和正描述符的位置,上述类别可以扩展到负例:困难负例、半困难负例和简单负例。注意,改变边距α的值将影响负例的分类。较高的值将为半困难负例提供更多空间,而较低的值将使困难负例和简单负例之间的边界变得很薄,减少半困难负例的数量。
然后,根据定义, embeddings \text{embeddings} embeddings空间可以分为三个子区域,每个三元组对应一个区域:

2d平面配准,CNN,3d,算法,python,vr,cnn
如前所述,如果生成并将 T \mathbb T T中的所有可能的三元组馈送到网络进行训练,由于许多简单三元组的损失为0,训练期间的收敛速度将很慢。损失越高,在反向传播期间对网络权重的修正就越大。因此,应该避免简单三元组以获得最佳的训练过程。
有两种建立三元组(三元组挖掘)的策略:文章来源地址https://www.toymoban.com/news/detail-779509.html

  1. Offline triplet mining:所有三元组都在离线环境中构建,例如在每个时期的开始。计算整个数据集的 embeddings \text{embeddings} embeddings,然后创建所有可能的三元组组合。然后,进行评估以选择半困难和困难三元组,这些将是用于训练的三元组。这种方法不太高效。
  2. Offline triplet mining:三元组是在训练期间即时构建的,由每个批次的数据组成。为大小为B的图像-点云对批次生成 embeddings \text{embeddings} embeddings。计算批次中图像描述符和点云描述符的所有可能组合之间的距离,得到大小为B×B的距离矩阵。每个图像中的正点云,即批次中的匹配点云,已知,因为它与图像一起被转发。然而,仍然需要获取负点云描述符以完成三元组。有两种方法可以实现:
    • 随机选择:从批次中随机选择一个与正点云不同的随机点云描述符。
    • 困难选择:选择与锚点图像描述符相对距离较大的点云描述符以完成三元组。

到了这里,关于2D-3D配准指南[方法汇总]【入门指导向】(一)问题介绍+LCD跨域描述子+Triplet loss的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GIS大数据处理框架sedona(塞多纳)编程入门指导

    Apache Sedona™是一个用于处理大规模空间数据的集群计算系统。Sedona扩展了现有的集群计算系统,如Apache Spark和Apache Flink,使用一组开箱即用的分布式空间数据集和空间SQL,可以有效地加载、处理和分析跨机器的大规模空间数据。码云镜像 码云sedona文档持续更新中 common java核

    2024年02月09日
    浏览(44)
  • 【Visual Studio 新手入门指导】包括项目创建、常用快捷键、美化、项目启动、添加文件等多种基础操作,图文详细,准确无误

    本文来自于作者在Visual Studio的使用过程中自己积累经验的总结,主要介绍一些比较实用的技巧,适合新手入门使用。 内容追求细致、有用、基础。 VS的每次运行的是一个一个的项目 (如果有多个项目,则每次执行选定启动项目,后文有所介绍),但是不同项目在一起构成一

    2024年02月08日
    浏览(41)
  • [点云配准]LCD(2D-3D特征配准算法)例程align_point_cloud.py解析

    跨域描述符LCD可以实现二维图片特征点到三维点云特征点的配准,是个具有通用性的深度学习特征描述子。(图片来源于论文 LCD: Learned Cross-Domain Descriptors for 2D-3D Matching ) 在Github开源的源码里面给出了利用LCD进行 三维点云配准 的例程。align_point_cloud.py,这里对例程如何使用

    2024年02月08日
    浏览(31)
  • 【视觉SLAM入门】5.2. 2D-3D PNP 3D-3D ICP BA非线性优化方法 数学方法SVD DLT

    前置事项: 该问题描述为:当我们知道n 个 3D 空间点以及它们的投影位置时,如何估计相机所在的位姿 1.1.1 DLT(直接线性变换法) 解决的问题:已知空间点 P = ( X , Y , Z , 1 ) T P = (X, Y, Z, 1)^T P = ( X , Y , Z , 1 ) T 和它投影点 x 1 = ( u 1 , v 1 , 1 ) T x_1 = (u_1, v_1, 1)^T x 1 ​ = ( u 1 ​ , v 1

    2024年02月12日
    浏览(26)
  • 配准带尺度点云的方法汇总

    如果点集之间不存在缩放关系时(即尺度相同时), 可以用经典ICP( Iterative Closest Point )方法求解得到旋转矩阵R和平移向量t来进行点集对齐。 如果存在缩放关系时,首先估计出点集S1和S2之间的缩放倍数s, 我们就可以利用ICP算法求解。 配准两组三维点集合步骤[参考]: ①找到一个

    2024年02月01日
    浏览(40)
  • CVPR2023最佳论文候选:3D点云配准新方法

    文章:3D Registration with Maximal Cliques 作者:Xiyu Zhang Jiaqi Yang* Shikun Zhang Yanning Zhang 编辑:点云PCL 代码: https://github.com/zhangxy0517/3D-Registration-with-Maximal-Cliques.git 欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。 公众号致力于点云处

    2024年02月08日
    浏览(31)
  • 【医学影像数据处理】2D/3D patch的crop和merge操作汇总

    在做 3D 分割任务中,多数的方法多采用整体缩放,或裁剪成一个个小的 patch 操作,这样做的一个主要原因是内存问题。还有就是有些目标太小,比如分割结节,用整图直接输入网络,正负样本的不均衡是非常大的。 相较于整体缩放,采用裁剪成 patch 的方法,对于小目标会更

    2024年02月11日
    浏览(44)
  • 高光谱图像降噪方法(2D Wavelet, 3D Wavelet, FORPDN, HyRes等方法)

    近年来,随着遥感应用的不断深入,高光谱图像研究已经成为遥感领域发展最迅速的技术之一。与其他传统成像技术相比,高光谱图像具有更多优势:更丰富的信息量、纳米级的光谱分辨率以及范围更广且连续的光谱。因此,在农业、军事、环境监测和食品工业领域有着广泛

    2024年02月20日
    浏览(27)
  • YOLO算法创新改进系列项目汇总(入门级教程指南)

    🚀一、主干网络改进(持续更新中)🎄🎈 🚀二、轻量化网络(持续更新中)🎄🎈 🚀三、注意力机制(持续更新中)🎄🎈 🚀四、检测头部改进(持续更新中)🎄🎈 🚀五、空间金字塔池化(持续更新中)🎄🎈 🚀六、损失函数及NMS改进(持续更新中)🎄🎈 🚀七、其

    2023年04月24日
    浏览(34)
  • PCL - 3D点云配准(registration)介绍

    前面多篇博客都提到过,要善于从官网去熟悉一样东西。API部分详细介绍见 Point Cloud Library (PCL): Module registration 这里博主主要借鉴Tutorial里内容(博主整体都有看完) Introduction — Point Cloud Library 0.0 documentation 接下来主要跑下Registration中的sample例子 一.直接运行下How to use iter

    2024年02月12日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包