PointMixer论文阅读笔记

这篇具有很好参考价值的文章主要介绍了PointMixer论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set, hierarchical-set的点云。PointMixer这偏论文还很好的证明了chanel-mixing MLP是比token-mixing MLP效果更好,对称encoder和decoder结构能够更好的处理点云问题。

为了方便论文阐述,做以下规定:
P是点云的总和
X是点云特性的总和
Y是output特性的总和
pi是i点云的位置
xi是i点云相关的特性
yi是i点云output的特性
Mi是pi点周围邻居点的集合,常表示为Mi = kNN(P, pi)

PointNet++: 使用kNN和最远点sampling算法,使用不对称的encoder和decoder。PointNet++网络不对整个点云直接分析,而是locally的处理然后再整合在一起。
yi = maxpooling(MLP(concat(xi, pi - pj)));j是Mi的成员

PointTransformer: 也是使用了kNN的方法
yi = sum(softmax(MLP(W1(xi) - W2(xj) + δ(pi - pj)))(W3(xj) + δ(pi - pj)))
W为linear transformer metric,δ为positional encoding vector。

MLP-Mixer: MLP-mixer分为token-mix MLP和channel-mix MLP, MLP-Mixer使用K个tokens有C维features, tokens是将图片分割成小块。 第一步是token-mixing MLPs, 第二步时channel-mixing MLP, token mixing是混合空间轴和维度轴到空间轴,channel-mixing是将空间信息转为维度和空间信息。
MLP-Mixer将CNN的两个任务切割开来,不同位置的mix叫token-mixing,同一位置不同channel的mix叫做channel-mixing。
X’ = X + (W2ρ(W1(Layernorm(X))T))T
Y = X’ + W4ρ(W3Layernorm(X’))
W是MLP,ρ是GELU
token-mix MLPs具有转置同变性,所以点云的输入顺序特别重要。需要在token-mix前再加一层转置不变的网络。
并且MLP-mixer只能处理inter-set的点云,还有很大的提升空间。
https://zhuanlan.zhihu.com/p/372692759

PointMixer:
sj = g2(concat(g1(xj); δ(pi - pj))); j属于Mi, g是channel-mix MLP, δ是positional encoding vector
yi = sum(softmax(sj) * g(xj)); 这里的乘法的element-wise
PointMixer的主要创新点是使用了positional embedding, 使用了softmax,不使用token-mix MLP

为什么不使用token-mix? token-mix MLP具有转置同变性的缺点,而且token-mix只能使用固定数量的输入,但是对于点云来说,neighbor不是固定的,要用聚类算法。

intra-set mixing 使用最传统的kNN

inter-set mixing 使用变种的query-kNN

hierarchical-set mixing 使用变种的hierarchical-kNN

对称性也表现在kNN的集合里面,encoder和decoder的M集是完全颠倒的。文章来源地址https://www.toymoban.com/news/detail-826046.html

到了这里,关于PointMixer论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-3 论文阅读笔记

    GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。 论文摘要翻译 :最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它

    2024年02月12日
    浏览(23)
  • Retinexformer 论文阅读笔记

    清华大学、维尔兹堡大学和苏黎世联邦理工学院在ICCV2023的一篇transformer做暗图增强的工作,开源。 文章认为,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假设干净的R和L,但实际上由于噪声,并不干净,所以分别为L和R添加干扰项,把公式改成如下: 本文采用先预测 L ‾ overline L

    2024年01月21日
    浏览(27)
  • 3D卷积网络论文阅读笔记

    数据集 BraTS 2020 数据增强方法 • Flipping翻转: 以1/3的概率随机沿着三个轴之一翻转 • Rotation旋转: 从限定范围(0到 15◦或到30◦或到60◦或到90◦)的均匀分布中随机选择角度旋转 • Scale缩放: 通过从范围为±10%或为±20%的均匀分布中随机选择的因子,对每个轴进行缩放 • Br

    2023年04月10日
    浏览(32)
  • 论文阅读笔记整理(持续更新)

    FAST 2021 Paper 泛读笔记 针对LSM树同时优化读写性能的问题,现有方法通过压缩提升读性能,但会导致读放大或写放大。作者利用新存储硬件的性能,随机读和顺序读性能相近,因此提出构建逻辑排序视图优化范围查询,因为减少了真正的压缩操作,同时减少了写放大。 ATC 2

    2024年01月23日
    浏览(30)
  • 论文阅读笔记2:NetVLAD

    题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 团队: PSL Research University/Tokyo Institute of Technology 解决的问题: 我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置 创新点: 这篇文章主要有3个创新点: 1. 为场景识别任务构造出

    2024年02月11日
    浏览(24)
  • InstructGPT 论文阅读笔记

    目录 简介 数据集                                 详细实现 实验结果 参考资料 InstructGPT 模型是在论文《Training language models to follow instructions with human feedback》被提出的,OpenAI在2022年1月发布了这篇文章。 论文摘要翻译 :把语言模型做得更大并不意味着让它们更好的遵循

    2024年02月01日
    浏览(36)
  • LIME论文阅读笔记

    这是暗图增强领域一篇经典的传统方法论文,发表在TIP这个顶刊 文章基于的是这样一个公式: L = R ⋅ T L=Rcdot T L = R ⋅ T 其中, L L L 是暗图, R R R 是反射分量, T T T 是illumination map,并且对于彩色图像来说,三通道都共享相同的illumination map。我们可以使用各种方法估计 T

    2024年02月09日
    浏览(28)
  • GAN 论文阅读笔记(6)

    原论文:MyStyle++: A Controllable Personalized Generative Prior 发表于:CVPR2023 注:本篇论文为 《MyStyle: A Personalized Generative Prior》 的改进,当遇到不理解的地方可以参照前一篇阅读笔记 图 1:MyStyle++ 在图像合成,编辑和增强上的表现 1:MyStyle MyStyle 是一种 GAN 模型的改进模型。其打算

    2024年01月18日
    浏览(31)
  • 论文阅读笔记(一)

    发表年份: 2016 主要贡献: 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 数据集 提出了多模态情绪分析未来研究的基线 提出了一种新的多模态融合方式 在这些在线意见视频中研究情绪主要面临的挑战和解决方法: 挑战 解决方法 这些视频的不稳定性和快节奏性。演讲者经

    2023年04月09日
    浏览(31)
  • Network Dissection 论文阅读笔记

      这是CVPR2017一篇有关深度学习可解释性研究的文章,作者通过评估单个隐藏神经元(unit)与一系列语义概念(concept)间的对应关系,来量化 CNN 隐藏表征的可解释性。 确定一套广泛的人类标记的视觉概念集合。 收集隐藏神经元对已知概念的响应。 量化(隐藏神经元,概念)的

    2024年02月15日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包