PVT v2: Improved Baselines with Pyramid Vision Transformer

这篇具有很好参考价值的文章主要介绍了PVT v2: Improved Baselines with Pyramid Vision Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文地址:https://arxiv.org/pdf/2106.13797.pdf
代码地址: https://github.com/whai362/PVT

一、研究背景

最近关于视觉Transformer的研究正在汇聚于主干网络,该主干网络设计用于下游视觉任务,如图像分类、目标检测、实例和语义分割。例如,Vision Transformer(ViT)首先证明了纯Transformer可以实现图像分类最先进的性能。金字塔视觉Transformer(PVT v1)表明,在密集预测任务(如检测和分割任务)中,纯Transformer主干也可以超过CNN。之后,Swin Transformer、CoaT、LeViT和Twins进一步改进了Transformer主干在分类、检测和分割的性能。
本文旨在建立基于PVT v1的更强、更可行的基线。有三种设计改进,即
(1)线性复杂度注意力层;
(2)重叠贴片嵌入,
(3)卷积前馈网络与PVT v1网络正交,当与PVT v1一起使用时,它们可以带来更好的图像分类、对象检测、实例和语义分割性能。改进的框架被称为PVT v2。

二、实现细节

PVT v1的三个主要限制如下:
(1)与ViT类似,当处理高分辨率输入(例如,短边为800像素)时,PVT v1的计算复杂度相对较大。
(2) PVT v1将图像视为非重叠块序列,这在一定程度上失去了图像的局部连续性;
(3) PVT v1中的位置编码是固定大小的,这对于任意大小的处理图像是不灵活的。这些问题限制了PVT v1在视觉任务中的性能。

一、线性空间缩减注意力

首先,为了减少注意力操作导致的高计算成本,本文提议了注意层(SRA),如下图所示。与使用卷积进行空间缩减的SRA不同,线性SRA使用平均池化来在注意力操作之前将空间维度(即h×w)缩减为固定大小(即P×P)。因此,线性SRA像卷积层一样具有线性计算和存储成本。具体而言,给定大小为h×w×c的输入,SRA和线性SRA的复杂度为:
PVT v2: Improved Baselines with Pyramid Vision Transformer
其中,R是SRA的空间缩减率。P是线性SRA的池化大小,设置为7。
PVT v2: Improved Baselines with Pyramid Vision Transformer

二、重叠切块嵌入

其次,为了对局部连续性信息进行建模,利用重叠切块嵌入来标记图像。如下图(a)所示,将补丁窗口放大,使相邻窗口重叠一半面积,并用零填充特征图以保持分辨率。在这项工作中,使用带零填充的卷积来实现重叠块嵌入。具体地说,给定大小为h×w×c的输入,将其馈送到步长为S的卷积中,核大小为2S− 1、的填充尺寸为S−1。核的数量为 c ′ c^{'} c输出大小为 h / S × w / S × c ′ h/S×w/S×c^{'} h/S×w/S×c
PVT v2: Improved Baselines with Pyramid Vision Transformer

三、卷积前馈网络

本文移除了固定大小的位置编码,并将零填充位置编码引入PVT。如下图(b)所示。在前馈网络中的第一个全连接(FC)层和GELU之间添加了填充大小为1的3×3深度卷积。
PVT v2: Improved Baselines with Pyramid Vision Transformer

四、PVT v2系列详细信息

本文通过改变超参数将PVT v2从B0扩展到B5。如下所示:
S i S_i Si:阶段i中重叠贴片嵌入的步幅;
C i C_i Ci:第i阶段输出的通道数量;
L i L_i Li:阶段i中的编码器层数;
R i R_i Ri:第i阶段SRA的缩减比;
P i P_i Pi:阶段i中线性SRA的自适应平均池化大小;
N i N_i Ni:第一阶段有效自注意力的头数;
E i E_i Ei:阶段i中前馈层的膨胀比;
下表显示了PVT v2系列的详细信息。遵循ResNet的原则
(1) 通道尺寸增加,而空间分辨率随着层的加深而收缩。
(2) 大部分计算成本被分配给阶段3。
PVT v2: Improved Baselines with Pyramid Vision Transformer

五、PVT v2的优点

结合这些改进,PVT v2可以
(1)获得图像和特征图的更多局部连续性;
(2) 更灵活地处理可变分辨率输入;
(3) 具有与CNN相同的线性复杂度。

三、实验验证

PVT v2: Improved Baselines with Pyramid Vision Transformer
PVT v2: Improved Baselines with Pyramid Vision Transformer

PVT v2: Improved Baselines with Pyramid Vision Transformer
PVT v2: Improved Baselines with Pyramid Vision Transformer
表6中报告了PVT v2的消融实验。所有三种设计都可以在性能、参数数量或计算开销方面改进模型。重叠切块嵌入(OPE)很重要。比较表6中的#1和#2,与具有原始补丁嵌入(PE)的模型相比,具有OPE的模型在ImageNet上获得了更好的top 1准确性(81.1%对79.8%),在COCO上获得了更高的AP(42.2%对40.4%)。OPE是有效的,因为它可以通过重叠的滑动窗口来建模图像和特征图的局部连续性。
卷积前馈网络(CFFN)很重要。与原始前馈网络(FFN)相比,CFFN包含零填充卷积层。其可以捕获输入张量的局部连续性。此外,由于OPE和CFFN中的零填充引入了位置信息,可以删除PVT v1中使用的固定大小的位置嵌入,使模型能够灵活地处理可变分辨率输入。文章来源地址https://www.toymoban.com/news/detail-482590.html

到了这里,关于PVT v2: Improved Baselines with Pyramid Vision Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

    论文名称: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 发表时间:ICLR2023 作者及组织:Shilong Liu, Feng Li等,来自IDEA、港中文、清华。  该篇论文在DN-DETR基础上,额外引进3个trick进一步增强DETR的性能:在12epoch下coco上达到了49.0map。本文将分别介绍这3个trick,

    2024年01月18日
    浏览(35)
  • 论文笔记:ViTGAN: Training GANs with Vision Transformers

    2021 论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务 即不用CNN,而使用ViT来完成图像生成任务 将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定 ——引入了新的正则化技术来训练带有

    2024年02月07日
    浏览(42)
  • Transfer learning in computer vision with TensorFlow Hu

    作者:禅与计算机程序设计艺术 Transfer learning is a machine learning technique that allows a model to learn new knowledge from an existing trained model on a similar task. Transfer learning can be useful for a variety of tasks such as image classification, object detection, and speech recognition. However, transfer learning has its own set of c

    2024年02月07日
    浏览(47)
  • Getting started with Computer Vision on FPGAs Get fami

    作者:禅与计算机程序设计艺术 近年来,随着越来越多的人将目光转向移动互联网、物联网和智能设备领域,人工智能(AI)成为当前科技热点。而人工智能的一个重要分支——计算机视觉(CV)则是其中的重要组成部分之一。本文将带领读者熟悉并掌握计算机视觉在FPGA上的

    2024年02月02日
    浏览(30)
  • MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory

    论文链接:https://ziweiwangthu.github.io/data/MCUFormer.pdf 源码链接:https://hub.yzuu.cf/liangyn22/MCUFormer 用于现实应用的深度神经网络部署通常需要高性能计算设备,如GPU和TPU。由于这些设备的高昂价格和能耗,不可接受的部署费用严格限制了深度模型在各种任务中使用。用于现实应用的

    2024年01月23日
    浏览(41)
  • 【论文笔记】BiFormer: Vision Transformer with Bi-Level Routing Attention

    论文地址:BiFormer: Vision Transformer with Bi-Level Routing Attention 代码地址:https://github.com/rayleizhu/BiFormer vision transformer中Attention是极其重要的模块,但是它有着非常大的缺点:计算量太大。 BiFormer提出了Bi-Level Routing Attention,在Attention计算时,只关注最重要的token,由此来降低计算量

    2024年01月25日
    浏览(73)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(48)
  • Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

    相关链接:arxiv github : Vision-RWKV 、 Visual Perception 、 Linear Attention 、 RWKV 、 Transformer Transformers 在计算机视觉和自然语言处理领域引起了革命,但它们的高计算复杂度限制了它们在高分辨率图像处理和长上下文分析中的应用。本文介绍了 Vision-RWKV (VRWKV),这是一个从NL

    2024年03月16日
    浏览(41)
  • 【论文笔记】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

    原文链接:https://arxiv.org/abs/2308.03755 完全稀疏检测器在基于激光雷达的3D目标检测中有较高的效率和有效性,特别是对于长距离场景而言。 但是,由于点云的稀疏性,完全稀疏检测器面临的一大困难是中心特征丢失(CFM),即因为点云往往分布在物体表面,物体的中心特征通

    2024年02月02日
    浏览(46)
  • 基于yolov5的PCB缺陷检测,引入CVPR 2023 BiFormer:Vision Transformer with Bi-Level Routing Attention提升检测精度

    目录 1.PCB数据集介绍 1.1 通过split_train_val.py得到trainval.txt、val.txt、test.txt  1.2 通过voc_label.py得到适合yolov5训练需要的 2.基于Yolov5 的PCB缺陷识别 2.1配置 pcb.yaml  2.2 修改yolov5s_pcb.yaml 2.3 超参数修改train.py 3.实验结果分析 3.1  CVPR 2023 BiFormer: 基于动态稀疏注意力构建高效金字塔

    2024年02月06日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包