CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

这篇具有很好参考价值的文章主要介绍了CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

我们提出了一种用于 3D 点云分析的非参数网络 Point-NN,它由纯不可学习的组件组成:最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作,具有三角函数.令人惊讶的是,它在各种 3D 任务上表现良好,不需要参数或训练,甚至超过了现有的完全训练模型。从这个基本的非参数模型开始,我们提出了两个扩展。首先,Point-NN 可以作为基础架构框架,通过简单地在顶部插入线性层来构建参数网络。鉴于优越的非参数基础,派生的 Point-PN 表现出高性能与效率的权衡,只有几个可学习的参数。其次,Point-NN 可以被视为推理过程中已训练的 3D 模型的即插即用模块。Point-NN 捕获互补的几何知识,并在无需重新训练的情况下针对不同的 3D 基准增强现有方法。我们希望我们的工作可以让社区了解使用非参数方法理解 3D 点云。

项目代码:https://github.com/ZrrSkywalker/Point-NN

1.研究背景与动机:

点云三维数据处理是自动驾驶,场景理解和机器人中的基本操作。点云包含无序点,离散描述三维空间中的物体表面。与基于网格的2D图像不同,它们是分布不规则和排列不变的,这导致了算法设计方面的非常规挑战。

自PointNet ++以来,主流趋势是添加高级局部算子和扩展学习参数。提出了以提取局部几何形状(例如,自适应点卷积和类似图形的消息传递)的机制,而不是使用max pooling进行特征聚合。性能提升也来自于扩大参数数量,例如KPConv的14.3M和PointMLP 的12.6M,比PointNet ++的1.7M要大得多。这一趋势增加了网络复杂性和计算资源。

相反,所有可学习模块下的非参数框架自PointNet ++以来几乎保持不变,包括最远点抽样(FPS),k最近邻(k-NN)和池化操作。鉴于很少有研究调查它们的有效性,我们提出问题:能否仅使用这些非参数组件实现高性能的三维点云分析?

2.贡献

我们重新审视现有3D模型中的不可学习组件:最远点抽样(FPS),k最近邻(k-NN)和池化操作构件,并以此提出了Point-NN,这是一个纯非参数网络,用于3D点云分析。

以Point-NN为基本框架,通过在Point-NN的每个阶段插入线性层,引入了其 parameter-efficient 的变体 Point-PN(图a),它在没有先进算子的情况下具有优越的性能

作为一个即插即用的模块,PointNN可以在推理过程中直接提升各种3D任务中的现成的训练过的模型(图b)

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

3.方法

3.1Point-NN

Point-NN(Figure 1)由不可学习的组件:最远点抽样(FPS),k最近邻(k-NN)和池化操作构成,它们形成了一个用于提****取3D特征的无参数编码器(Non - Parametric Encoder)以及一个用于特定任务识别的的点记忆库(Point-Memory Bank)。

多阶段编码器逐步采用FPS、k-NN、三角函数和池化操作来聚合局部几何信息,生成点云的高维全局向量。仅采用简单的三角函数来揭示每个池化阶段的局部的空间形态,而没有可学习的算子。然后我们采用Point-NN的无参数编码器来提取训练集的特征并缓存到点记忆库中。

对于测试的点云,通过朴素的特征相似度匹配,点记忆库输出特定任务的预测结果。

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

3.2 Non-Parametric Encoder

如Figure 3 所示,非参数编码器将P点的X Y Z 左边进行初始嵌入,转化为高维的向量,并经过多级结构逐步聚合成局部形态。CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

Raw-point Embedding

文章中的原始点嵌入参考了Transformer中的位置编码并将他扩展为3D的无参数嵌入,对于一个原始点的坐标为,我们利用三角函数将其嵌入成维向量。其中代表着三个轴的嵌入,而代表初始维度。以为例,对于通道索引

其中α,β分别控制幅度和波长。由于三角函数的固有特性,变换后的向量可以很好地编码不同点之间的相对位置信息,并捕捉3D形状的精细结构变化。

Local Geometry Aggregation

我们采用四阶段的网络架构来逐层聚合空间局部特征。在使用FPS和k-NN之后,我们放弃任何可学习的运算符Φ(·),而是简单地利用**三角函数PosE(·)**来揭示局部模式。具体而言,对于每个中心点及其邻域,我们旨在实现三个目标。

(1)Feature Expansion

随着网络阶段的加深,每个点特征被分配更大的感受野并需要更高的特征维度来编码3D语义。我们通过将邻居特征与中心特征沿特征维度简单地进行连接来进行这种特征扩展。

(2)Geometry Extraction

为了指示局部区域内k个邻居的空间分布,我们通过相对位置编码对每个进行加权。我们用平均值和标准差对它们的坐标进行归一化,表示为,并通过下面的方程进行嵌入。然后,k个邻居的特征被加权:

(3)Feature Aggregation

称重后,我们利用最大池化和平均池化进行局部特征聚合:

3.3Point-Memory Bank

我们的 Point-NN 不使用传统可学习分类头,而采用点存储器从 3D 训练集中获取足够的类别知识。如图 4 所示,该存储器首先通过无需训练的非参数编码器构建,然后在推理时通过相似度匹配输出预测。

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

Memory Construction

点记忆库由特征记忆库和标签记忆库。其中:

通过标记,可以将视为3D训练集的编码类别知识。具有相同标签的特征共同描述相同类别的特征,并且嵌入空间距离也可以反映类间区别。

Similarity-based Prediction

对于测试点云,我们还使用非参数编码器提取其全局特征作为,它与特征记忆位于相同的嵌入空间中。然后,通过构建的记忆库简单地通过两个矩阵乘法完成分类。首先,我们通过计算测试特征和之间的余弦相似度来完成:

其中,表示测试点云与每N个训练样本之间的语义相关性。除此之外,我们还将标签存储器中的one -hot标签按加权整合,公式化为:

其中φ(x) = exp(−γ(1−x))为激活函数的一种形式。在中,得分越高的相似特征记忆对最终分类logits的贡献越大,反之亦然。

4.Starting from Point-NN

4.1 As Architectural Frameworks

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

如图5所示,在Point-NN的顶部,我们首先替使用一个传统的可学习的分类头替代点存储库(上图A位置),这个轻量级的版本在ModelNet40上就实现了90.3%的分类准确率,只有0.3M的参数。

为了更好的提取多尺度层次结构,我们在编码器的额每个阶段添加了简单的线性层。在每个阶段,在几何特征提取之前或者之后添加2个可学习的线性层(上图C D E位置),以捕捉更高层次的空间形态。Point-PN在0.8M参数下达到了竞争性的93.8%的精度。CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

4.2 As Plug-and-play Modules

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

此外Point-NN也可作为一种即插即用的增强模块,我们可以将其运用在其他网络上。以形状分类为例,我们直接使用线性插值来融合Point-NN和成品模型的分类预测。该设计产生了两种类型的知识集成:来自Point-NN的低级结构信号经过训练的网络的高级语义知识

如图6所示,Point-NN提取的点云特征,在锐利的3D结构周围产生高响应值,例如飞机的翼尖、椅子的腿和灯杆。相比之下,经过训练的PointNet++更注重具有丰富语义的3D结构,例如飞机的主体、椅子的底部和灯罩。

对于部分分割和三维物体检测,同时运行额外的Point-NN来增强现有模型会在时间和内存方面都很昂贵。因此,我们直接采用已经训练好的模型的编码器提取点云特征,并仅在其上方应用我们的点存储器,用于即插即用。通过利用相似度匹配和传统可学习分类头之间的互补知识,我们也可以实现性能提升。CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

5.Experiments

5.1 Shape Classification

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

5.2Ablation Study

CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络

6.Conclusion

我们重新审视现有 3D 模型中的不可学习部分,并提出 Point-NN,这是一个纯非参数的 3D 点云分析网络。Point-NN 不受任何参数或训练的限制,在各种 3D 任务中都能取得良好的准确性。从 Point-NN 开始,我们提出了其两个有前途的应用:PointPN 的结构框架和性能改进的即插即用模块。广泛的实验已经证明了它的有效性和重要性。对于未来的工作,我们将集中探索更先进的非参数模型,以应用于更广泛的 3D 点云分析场景。

更多Ai资讯:公主号AiCharm
CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络文章来源地址https://www.toymoban.com/news/detail-422053.html

到了这里,关于CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 3D点云分割系列1:PointNet,从Voxel-base到Point-base的进阶之路

    PointNet发布于2017CVPR。 《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》 题外话 PointNet对于3D点云分割的意义有点像FCN对语义分割的意义。PointNet不同以往的voxel-based的模型,它试图通过直接对点云数据中每一个点进行处理,来分析点云中每一个点的信息,提取特征

    2024年01月18日
    浏览(32)
  • Yolov5轻量化:CVPR2023|RIFormer:无需TokenMixer也能达成SOTA性能的极简ViT架构

     论文:https://arxiv.org/pdf/2304.05659.pdf         问题: Vision Transformer 已取得长足进步,token mixer,其优秀的建模能力已在各种视觉任务中被广泛证明,典型的 token mixer 为自注意力机制, 推理耗时长,计算代价大 。直接去除会导致模型结构先验不完整,从而带来显著的准确

    2024年02月08日
    浏览(75)
  • Yolov5涨点神器:RIFormerBlock助力检测|CVPR2023|RIFormer:无需TokenMixer也能达成SOTA性能的极简ViT架构

    目录  1.RIFormer介绍 2. RIFormer引入到yolov5 2.1在models/backbone/RIFormer.py新建  2.2 yolo修改 2.3 yolov5s_C2f_RIFormerBlock.yaml

    2024年02月09日
    浏览(31)
  • CVPR2023最新论文 (含语义分割、扩散模型、多模态、预训练、MAE等方向)

    2023 年 2 月 28 日凌晨,CVPR 2023 顶会论文接收结果出炉! CVPR 2023 收录的工作中 \\\" 扩散模型、多模态、预训练、MAE \\\" 相关工作的数量会显著增长。 Delivering Arbitrary-Modal Semantic Segmentation 论文/Paper: http://arxiv.org/pdf/2303.01480 代码/Code: None Conflict-Based Cross-View Consistency for Semi-Supervised

    2023年04月08日
    浏览(35)
  • CVPR2023 | 半监督VOS训练新范式 | Two-shot Video Object Segmentation

    文章地址:地址 代码:地址 标题:Two-shot Video Object Segmentation 以往的视频对象分割(VOS)工作都是在密集标注的视频上进行训练。然而,获取像素级别的注释是昂贵且耗时的。在这项工作中,我们证明了在稀疏标注的视频上训练一个令人满意的VOS模型的可行性——在性能保持不

    2024年02月15日
    浏览(42)
  • CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列

    内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet的新框架,包括一个新的可逆残差网络(reversible residual network)和一个无偏线性变换模块,用于多功能风格转移。这个可逆残差网络不仅可以保留内容关联性

    2024年02月11日
    浏览(34)
  • CVPR 2023 | 去雨去噪去模糊,图像low-level任务,视觉AIGC系列

    基于Transformer的方法在图像去雨任务中取得了显著的性能,因为它们可以对重要的非局部信息进行建模,这对高质量的图像重建至关重要。本文发现大多数现有的Transformer通常使用查询-键对中的所有token的相似性进行特征聚合。然而,如果查询中的token与键中的token不同,从这

    2024年02月12日
    浏览(34)
  • 解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE

    这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入,注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模 BigBird Longformer Reformer Performer,不过以上方案无一例外都需要在训练阶段引入。

    2024年02月08日
    浏览(32)
  • CVPR‘2023 即插即用系列! | BiFormer: 通过双向路由注意力构建高效金字塔网络架构

    Title: BiFormer: Vision Transformer with Bi-Level Routing Attention Paper: https://arxiv.org/pdf/2303.08810.pdf Code: https://github.com/rayleizhu/BiFormer 众所周知, Transformer 相比于 CNNs 的一大核心优势便是借助自注意力机制的优势捕捉 长距离上下文依赖 。正所谓物极必反,在原始的 Transformer 架构设计中,这

    2023年04月09日
    浏览(31)
  • 改进YOLO系列 | CVPR2023最新注意力 | BiFormer:视觉变换器与双层路由注意力

    作为视觉变换器的核心构建模块,注意力是一种强大的工具,可以捕捉长程依赖关系。然而,这种强大的功能付出了代价:计算负担和内存占用巨大,因为需要在所有空间位置上计算成对的令牌交互。一系列的研究尝试通过引入手工制作和与内容无关的稀疏性来缓解这个问题

    2024年02月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包