Point transformer v2。
香港大学2022
在PCT的基础上进一步改进的点云处理方法,通过分组向量注意力(Grouped Vector Attention)和基于划分的池化机制,提高了对点云特征的提取和聚合能力,并在轻量级上有了新的突破。
总体来看:
1.点云网格化:将点云划分成大小相等的小块,对每个小块进行独立处理。为了保证小块的相对位置信息,每个小块的坐标需要经过中心化(Centering)和标准化处理。
2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。
2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。
3.点云特征聚合:将每个小块的特征聚合为整体特征。这个步骤主要使用基于划分的池化机制。相比于传统的最大池化或平均池化,基于划分的池化将小块划分成多个子块,然后对每个子块进行独立计算,最后将它们组合起来得到整个小块的特征表达。
4.点云解码:对整个点云的特征进行解码,得到点云的分类或分割结果。
Grouped Vector Attention
较大的模型会影响泛化能力以及模型效率,为了克服向量注意力的局限性,引入分组向量注意力
常见的注意力机制做法:
其中输入channel与输出channel保持一致,通过q和k做relationship生成权重矩阵在value上进行逐步逐点查询。其计算量大在于逐步查询带来的大量计算。
这里做法:
输入channel通过注意力分组输出变为C的channel,每组共享同一个注意力一次来减少计算量。
其中的分组结构:
常见做法将q与k获取的权重矩阵分别对每个点进行计算查询,这里通过分组共享权重减少了计算量。
新编码机制,Position Encoding Multipler
原先编码往往是通过q和k做relationship之后加上点之间的偏置
这里做法:
通过乘以δmul每个点之间相减值与获取的权重矩阵相乘,同时加上偏置。(我只能理解就是增加了模型微调的幅度,可以更好自适应数据)
Partition-based Pooling
原先的球查询聚类方式往往带来大量的计算量,但是尤其是点云背景点较多的时候效果不会特别有效还带来了大量无用计算。
这里直接通过分区进行平均池化的操作获取最远距离采样之后的关键点周围的特征减少计算量。上采样是直接将改点按照位置拼接回去。
experience文章来源:https://www.toymoban.com/news/detail-814284.html
在scannetv2和s3dis上都有明显进步,同时轻量级也非常高。文章来源地址https://www.toymoban.com/news/detail-814284.html
到了这里,关于论文阅读Point Transformer V2: Grouped Vector Attention and Partition-based Pooling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!