Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila & T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html
Perceiver:迭代关注的通用感知
摘要
这篇论文介绍了Perceiver,这是一种建立在Transformer基础上的模型。它在处理来自视觉、听觉、触觉、本体感觉等多种形式的高维输入时,不像深度学习中的感知模型那样被设计为针对单一模态。相反,传统的感知模型通常依赖于特定于领域的假设,例如几乎所有现有视觉模型都利用的局部网格结构。这些先验引入了有用的归纳偏见,但也使模型被锁定到单个模态。
Perceiver模型利用不对称的注意力机制,将输入迭代地提炼为一个紧凑的潜在瓶颈,使其能够扩展以处理非常大的输入。论文展示了这种架构在各种模态的分类任务上与或优于强大的专门模型:图像、点云、音频、视频和视频+音频。Perceiver在ImageNet上通过直接关注50,000像素而获得了与ResNet-50和ViT相媲美的性能,而不需要2D卷积。在AudioSet中,它在所有模态中都表现出竞争力。
图1:Perceiver是一种基于关注机制原理的架构,能够处理高维输入,如图像、视频、音频、点云和多模态组合,而不做特定于领域的假设。Perceiver使用交叉注意力模块,将高维输入字节数组投影到一个固定维度的潜在瓶颈(输入索引数M远远大于潜在索引数N),然后使用潜在空间中的一堆Transformer风格的自注意力块进行处理。Perceiver通过交替使用交叉注意力和潜在自注意力块,对输入字节数组进行迭代式关注。
图2:我们在来自ImageNet(Deng等人,2009)的图像(左侧),AudioSet(Gemmeke等人,2017)的视频和音频(既考虑多模态也考虑单模态)(中间),以及ModelNet40(Wu等人,2015)的3D点云(右侧)上对Perceiver架构进行训练。基本上不需要进行架构上的更改,就可以在各种不同的输入数据上使用该模型。
表1:在ImageNet上的Top-1验证准确率(以%表示)。使用2D卷积的模型在架构上利用了特定领域的网格结构,而仅使用全局注意力的模型则没有这样的假设。第一个模块报告了从像素获得的标准性能 - 这些数字来自文献。第二个模块显示了当输入是RGB值与2D傅里叶特征(FF)串联在一起时的性能 - 这与Perceiver接收的输入相同。这个模块使用我们对基线的实现。Perceiver在ImageNet上与标准基线竞争,而不依赖于特定领域的架构假设。文章来源:https://www.toymoban.com/news/detail-828779.html
图3:来自我们在ImageNet上表现最佳模型的第一、第二和第八(最后)个交叉关注层的注意力图(参见表1)。在该模型中,交叉关注模块2-8共享权重。第1行:原始图像和来自每个这些层的一个注意力图的局部放大图。第2-4行:交叉关注模块的注意力图概览。注意力图似乎以一系列空间频率的格子状图案扫描输入图像。可视化的注意力图没有叠加在输入图像上:任何明显的图像结构都存在于注意力图本身中(狗在第一个模块的注意力图中清晰可见)。文章来源地址https://www.toymoban.com/news/detail-828779.html
到了这里,关于【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!