【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器

这篇具有很好参考价值的文章主要介绍了【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器


BiFormer: Vision Transformer with Bi-Level Routing Attention

视觉转换器的核心组成部分,注意力是捕捉长期依赖关系的有力工具

计算跨所有空间位置的成对token交互时,计算负担和沉重的内存占用

提出了一种新的动态稀疏注意,通过双层路由实现更灵活的内容感知计算分配


过程:

  • 首先在粗区域级别过滤掉不相关的键值对
  • 然后在剩余候选区域(即路由区域)的联合中应用细粒度的Token到Token
  • 利用稀疏性来节省计算和内存,同时只涉及GPU-friendly的密集矩阵乘法


提出了一种新的通用视觉变压器,称为BiF变压器

一、总体介绍

Transformer有许多适合于构建强大的数据驱动模型的属性

捕获数据中的远程依赖关系

卷积本质上是一个局部算子,与之相反,注意力的一个关键属性是全局接受场,它使视觉转换器能够捕获远程依赖

稀疏关注引入到视觉转换,可以减少相应的计算量

不同语义区域的查询实际上关注的键值对是完全不同的。因此,强制所有查询处理同一组令牌可能不是最优的

需要评估所有查询和键之间的配对亲和力,因此具有相同的vanilla attention复杂性。另一种可能性是基于每个查询的本地上下文来预测注意力偏移量

高效地定位有价值的键值

提出了一种区域到区域路由,核心思想是在粗粒度的区域级别过滤掉最不相关的键值

不是直接在细粒度的令牌级别

应用Token到令Token的注意,这是非常重要的,因为现在假定键值(Q,K,V)对在空间上是分散的

使用BRA作为核心构建块,我们提出了BiFormer,这是一个通用的视觉变压器骨干

BRA使BiFormer能够以内容感知的方式为每个查询处理最相关的键/值Token的一小部分,因此我们的模型实现了更好的计算性能权衡



具体作用:

  • 引入了一种新的双层路由机制,自适应查询的方式实现内容感知的稀疏模式
  • 双级路由关注作为基本构建块
  • 更好的性能和更低的计算量

二、联系工作


Vision transformers

  采用基于通道的MLP块进行错位嵌入(通道混合),并采用注意力块进行交叉位置关系建,transformers使用注意力作为卷积的替代方案来实现全局上下文建模

  vanilla attention在所有空间位置上两两计算特征亲和性,它会带来很高的计算负担和沉重的内存占用



Efficient attention mechanisms

  稀疏连接模式[6],低秩近似[43]或循环操作[11]来减少vanilla attention的计算和内存复杂性瓶颈,Swin变压器中,将注意力限制在不重叠的局部窗口上,并引入移位窗口操作来实现相邻窗口之间的窗口间通信

手工制作的稀疏模式:

  • 膨胀窗口[41,46]
  • 十字形窗口[14]

不同查询的关注区域可能会有显著差异

  双层路由注意的目标是定位几个最相关的键值对,而四叉树注意构建了一个到ken金字塔,并组装来自不同粒度的所有级别的消息

三、具体模型

3.1 注意力



注意力的具体表示:

Q∈RNq×C,键K∈RNkv×C,值V∈RNkv×C作为输入

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

避免权值集中和梯度消失,引入标量因子√C

基础的构建块是多头自关注(MHSA)

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

3.2 双级路由注意(BRA)


为了缓解MHSA的可扩展性问题,一些研究[14,29,41,46,48]提出了不同的稀疏关注机制,其中每个查询只关注少量的键值对

探索了一种动态的、查询感知的稀疏注意机制。

整体结构图:

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

具体操作思想:

  • 在粗区域级别过滤掉大多数不相关的键值对
  • 只保留一小部分路由区域
  • 路由区域的联合中应用细粒度的令牌到令牌关

Region partition and input projection.

特征图X∈RH×W×C

分为S×S个不重叠的区域,使得每个区域包含H×W×S2特征向量

将其转化为

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

同时将导出查询,键,值张量,Q, K, V∈R s2xHW/S2×C,具有线性投影

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能



Region-to-region routing with directed graph

构造一个有向图来找到参与关系,每个给定区域应该参与的区域

对Q和K应用每个区域的平均值来推导区域级查询和键Qr, Kr∈RS2×C

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

Qr与转置的Kr之间的矩阵乘法推导出区域到区域亲和图的邻接矩阵

Ar中的条目度量两个区域在语义上的关联程度

步骤是通过仅为每个区域保留top-k连接来修剪关联图

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能


Ir的第i行包含第i区最相关区域的k个指标

区域到区域路由索引矩阵Ir,我们就可以应用细粒度的Token到令Token的注意关注。对于区域i中的每个查询令牌

收集键和值张量

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

函数LCE(·)使用深度卷积参数化,我们将内核大小设置为5

BRA的计算包括三个部分:

  • 线性投影

  • 区域到区域路由

  • token到token注意

3.4. BiFormer的结构设计

BRA为基本构建块,提出了一种新的通用视觉变压器BiFormer

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

具体结构:

  1. 第一阶段使用重叠的patch嵌入
  2. 第二到第四阶段使用patch合并模块
  3. 使用Ni连续的BiFormer块来变换特征

将每个注意头设置为32个通道,MLP扩展比e=3。对于BRA,由于输入分辨率不同,我们对4个阶段使用topk = 1,4,16, S2

分类/语义分割/目标检测任务,区域划分因子S = 7/8/16

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能


四、论文实验结果


同样只看在ADE20K,语义分割上的实验效果,与其他的效果来进行对比

基于MMSegmentation[8]在ADE20K[55]数据集上进行了语义分割实验。

采用框架对比:

  • 语义FPN
  • UperNet

主干都使用ImageNet-1K预训练的权重进行初始化,而其他层则使用随机初始化,使用AdamW优化器对模型进行优化,批量大小设置为32

Swin Transformer相同的设置

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

五、代码理解


从官方代码中给出的代码中我们选取biformer_base来对相应的

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

通过相应参数,我们可以得知,在构建模型中的数据

由于我下游任务是语义分割,topks的最后一项参数是S=8,s2是64

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

这里是具体的BRA模块的构成参数导入,由4个阶段的不同来分配不同的参数,因为s=-1改为了s=64,在4个阶段的Attention都为BiLevelRoutingAttention


在代码中的具体使用

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

原官方代码中有很多if,else的判断选择,但是最后执行的代码为这一段

Biformer的具体函数在

【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器,论文阅读,深度学习,人工智能

可以看到具体的函数操作


六、遥感实验结果

2023.5.21 resnet50 Vaihingen 256*256(叠切) 3225 100 0.01 SGD OA=83.47% Miou=67.75% F1=80.53% resnet50+BiFormer*4+IRFFN(depth=[3,4,6,3] num_heads=[2, 4, 8, 16],dilation=[1, 2])
2023.5.21 resnet50 Vaihingen 256*256(叠切) 3225 100 0.01 SGD 82.93% 67.61% 80.35% resnet50+BiFormer2+MSDA2+IRFFN(depth=[3,4,6,3] num_heads=[2, 4, 8, 16],dilation=[1, 2])
2023.5.21 resnet50 Vaihingen 256*256(叠切) 3225 100 0.01 SGD 83.24% 67.74% 80.44% resnet50+BiFormer+MSDA+BiFormer+MSDA+IRFFN(depth=[3,4,6,3] num_heads=[2, 4, 8, 16],dilation=[1, 2])

主干网络:resnet50

解码器:Unet的融合解码

初步结论:具有一定提高的效果,但作为轻量级的网络,在实际的使用上效果一般文章来源地址https://www.toymoban.com/news/detail-529093.html

到了这里,关于【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Mamba:具有选择状态空间的线性时间序列建模

    Mamba:基于选择状态空间的线性时间序列建模 论文两位作者Albert Gu和Tri Dao,博士都毕业于斯坦福大学,导师为Christopher Ré。 Albert Gu现在是CMU助理教授,多年来一直推动SSM架构发展。他曾在DeepMind 工作,目前是Cartesia AI的联合创始人及首席科学家。 Tri Dao,以FlashAttention、Flas

    2024年03月21日
    浏览(50)
  • 一种具有轨迹优化的无人驾驶车实时运动规划器 论文阅读

    论文题目:A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles Abstract 本文的实时规划器首先将空间离散化,然后基于一组成本函数搜索出最佳轨迹。迭代优化所得到的轨迹的Path和Speed。 post-optimization计算复杂度低,能够在几次迭代内收敛到一个更高质量的解,该框

    2024年01月17日
    浏览(54)
  • RLE 稀疏水平集 RLE sparse level sets 论文阅读笔记

    原文: Houston, Ben, Mark Wiebe, and Chris Batty. “RLE sparse level sets.” ACM SIGGRAPH 2004 Sketches. 2004. 137. 只有一页,这就是技术草案的含金量吗 run-length encoded, RLE 游程编码 为什么 run-length 会被翻译为游程 我理解它把连续的重复出现的数字编码成 值+出现次数 的思想 但是还是理解不了这

    2024年02月22日
    浏览(42)
  • [自注意力神经网络]Segment Anything(SAM)论文阅读

    论文地址 https://arxiv.org/abs/2304.02643 源码地址 https://github.com/facebookresearch/segment-anything 强烈建议大家试试Demo,效果真的很好:https://segment-anything.com/         本文建立了一个基础图像分割模型,并将其在一个巨大的数据集上进行训练,目的是解决一系列下游任务。本文的关键

    2023年04月23日
    浏览(57)
  • FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

    标题:基于卷积和注意力机制的小样本目标检测 作者:郭永红,牛海涛,史超,郭铖 郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002 典型的FSOD使用Fast R-CNN作为基本的检测框架 本文亮点:引入

    2024年01月24日
    浏览(48)
  • 【论文阅读 09】融合门控自注意力机制的生成对抗网络视频异常检测

            2021年 中国图象图形学报 背景: 视频异常行为检测是智能监控技术的研究重点,广泛应用于社会安防领域。当前的挑战之一是如何提高异常检测的准确性,这需要有效地建模视频数据的空间维度和时间维度信息。生成对抗网络(GANs)因其结构优势而被广泛应用于视

    2024年02月03日
    浏览(41)
  • 图像融合论文阅读:(MFEIF)学习深度多尺度特征集成和边缘注意引导的图像融合

    @article{liu2021learning, title={Learning a deep multi-scale feature ensemble and an edge-attention guidance for image fusion}, author={Liu, Jinyuan and Fan, Xin and Jiang, Ji and Liu, Risheng and Luo, Zhongxuan}, journal={IEEE Transactions on Circuits and Systems for Video Technology}, volume={32}, number={1}, pages={105–119}, year={2021}, publisher={IEEE

    2024年02月04日
    浏览(40)
  • 图像融合论文阅读:CrossFuse: 一种基于交叉注意机制的红外与可见光图像融合方法

    @article{li2024crossfuse, title={CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach}, author={Li, Hui and Wu, Xiao-Jun}, journal={Information Fusion}, volume={103}, pages={102147}, year={2024}, publisher={Elsevier} } 论文级别:SCI A1 影响因子:18.6 📖[论文下载地址] 💽[代码下载地址] 以往的交

    2024年01月15日
    浏览(52)
  • 【论文阅读】互连网络的负载平衡路由算法 (RLB & RLBth)

    前言 Oblivious Load Balancing 不经意路由负载平衡 1. oblivious routing 不经意/无关路由的背景知识 1. oblivious routing, adaptive routing minimal/non-minimal routing algorithms 2. Balancing a 1-Dimensional ring: RLB and RLBth 一维 ring 的 RLB and RLBth 1. Motivation of Balancing load 平衡负载的动机 2. 一维 ring 的 RLB and RLB

    2024年04月25日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包