论文阅读Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

这篇具有很好参考价值的文章主要介绍了论文阅读Point Transformer V2: Grouped Vector Attention and Partition-based Pooling。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Point transformer v2。

香港大学2022

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

在PCT的基础上进一步改进的点云处理方法,通过分组向量注意力(Grouped Vector Attention)和基于划分的池化机制,提高了对点云特征的提取和聚合能力,并在轻量级上有了新的突破。

总体来看:

1.点云网格化:将点云划分成大小相等的小块,对每个小块进行独立处理。为了保证小块的相对位置信息,每个小块的坐标需要经过中心化(Centering)和标准化处理。

2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。

2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。

3.点云特征聚合:将每个小块的特征聚合为整体特征。这个步骤主要使用基于划分的池化机制。相比于传统的最大池化或平均池化,基于划分的池化将小块划分成多个子块,然后对每个子块进行独立计算,最后将它们组合起来得到整个小块的特征表达。

4.点云解码:对整个点云的特征进行解码,得到点云的分类或分割结果。

Grouped Vector Attention

较大的模型会影响泛化能力以及模型效率,为了克服向量注意力的局限性,引入分组向量注意力

常见的注意力机制做法:

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

其中输入channel与输出channel保持一致,通过q和k做relationship生成权重矩阵在value上进行逐步逐点查询。其计算量大在于逐步查询带来的大量计算。

这里做法:

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

输入channel通过注意力分组输出变为C的channel,每组共享同一个注意力一次来减少计算量。

其中的分组结构:

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

常见做法将q与k获取的权重矩阵分别对每个点进行计算查询,这里通过分组共享权重减少了计算量。

新编码机制,Position Encoding Multipler

原先编码往往是通过q和k做relationship之后加上点之间的偏置

这里做法:

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

通过乘以δmul每个点之间相减值与获取的权重矩阵相乘,同时加上偏置。(我只能理解就是增加了模型微调的幅度,可以更好自适应数据)

Partition-based Pooling

原先的球查询聚类方式往往带来大量的计算量,但是尤其是点云背景点较多的时候效果不会特别有效还带来了大量无用计算。

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

这里直接通过分区进行平均池化的操作获取最远距离采样之后的关键点周围的特征减少计算量。上采样是直接将改点按照位置拼接回去。

experience

在scannetv2和s3dis上都有明显进步,同时轻量级也非常高。文章来源地址https://www.toymoban.com/news/detail-814284.html

  • point transformer v2,论文阅读,深度学习,人工智能,机器学习

到了这里,关于论文阅读Point Transformer V2: Grouped Vector Attention and Partition-based Pooling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Attention和Visual Transformer

    Attention机制在相当早的时间就已经被提出了,最先是在计算机视觉领域进行使用,但是始终没有火起来。Attention机制真正进入主流视野源自Google Mind在2014年的一篇论文\\\"Recurrent models of visual attention\\\"。在该文当中,首次在RNN上使用了Attention进行图像分类 。 然而,Attention真正得到

    2024年02月07日
    浏览(32)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(86)
  • 论文阅读:PointCLIP: Point Cloud Understanding by CLIP

     CVPR2022 链接:https://arxiv.org/pdf/2112.02413.pdf         最近,通过对比视觉语言预训练(CLIP)的零镜头学习和少镜头学习在2D视觉识别方面表现出了鼓舞人心的表现,即学习在开放词汇设置下将图像与相应的文本匹配。然而,在二维大规模图像文本对的预训练下,CLIP识别能否推

    2024年02月04日
    浏览(38)
  • [论文阅读]Visual Attention Network原文翻译

    [论文链接]https://arxiv.org/abs/2202.09741   虽然一开始是被设计用于自然语言处理任务的,但是自注意力机制在多个计算机视觉领域掀起了风暴。然而,图像的二维特性给自注意力用于计算机视觉带来了三个挑战。(1)将图像视作一维序列忽视了它们的二维结构;(2)二次复杂

    2024年02月09日
    浏览(38)
  • 【论文阅读】Pay Attention to MLPs

    作者:Google Research, Brain Team 泛读:只关注其中cv的论述 提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用 提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和

    2024年02月10日
    浏览(25)
  • 论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    目录 概要 Motivation 整体架构流程 技术细节 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小结 论文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org)     该论文提出了一种利用点云序列数据进行离线三维物体检测的方法,称

    2024年02月06日
    浏览(37)
  • 论文阅读:Attention is all you need

    【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按照论文梳理一下LLM是如何一路发展而来

    2024年01月18日
    浏览(36)
  • Rethinking Point Cloud Registration as Masking and Reconstruction论文阅读

    2023 ICCV * Guangyan Chen, Meiling Wang, Li Yuan, Yi Yang, Yufeng Yue* ; Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023, pp. 17717-17727 paper: Rethinking Point Cloud Registration as Masking and Reconstruction (thecvf.com) code: CGuangyan-BIT/MRA (github.com) 这论文标题就很吸引人,但是研读下来作者只是想

    2024年02月08日
    浏览(37)
  • 【论文笔记】BiFormer: Vision Transformer with Bi-Level Routing Attention

    论文地址:BiFormer: Vision Transformer with Bi-Level Routing Attention 代码地址:https://github.com/rayleizhu/BiFormer vision transformer中Attention是极其重要的模块,但是它有着非常大的缺点:计算量太大。 BiFormer提出了Bi-Level Routing Attention,在Attention计算时,只关注最重要的token,由此来降低计算量

    2024年01月25日
    浏览(46)
  • 【论文阅读笔记】Attention Is All You Need

      这是17年的老论文了,Transformer的出处,刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。   在此论文之前,序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构,是完全基于注意力机制

    2024年04月13日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包