论文阅读——SG-Former

这篇具有很好参考价值的文章主要介绍了论文阅读——SG-Former。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SG-Former: Self-guided Transformer with Evolving Token Reallocation

1. Introduction

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

方法的核心是利用显著性图,根据每个区域的显著性重新分配tokens。显著性图是通过混合规模的自我关注来估计的,并在训练过程中自我进化。直观地说,我们将更多的tokens分配给显著区域,以实现细粒度的关注,而将更少的tokens分配到次要区域,以换取效率和全局感受场。

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

2. Method

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

hybrid-scale Transformer block提取混合尺度对象和多粒度信息,指导区域重要性;self-guided Transformer block根据混合尺度Transformer块的显著性信息,在保持显著区域细粒度的同时,对全局信息进行建模。

2.1 Self-Guided Attention

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

通过将几个tokens合并为一个token聚合来减少序列长度这种减少注意力计算的聚合方法面临两个问题:(i)信息可能在显著区域丢失或与不相关的信息混合,(ii)在次要区域或背景区域,许多标记(序列的较高比例)对于简单语义是冗余的,同时需要大量计算。

输入特征图:sg-former: self-guided transformer with evolving token reallocation,论文,人工智能,映射为Q、K、V

然后H个相互独立的自注意力头平行的计算自注意力,为了计算注意力后保持特征图大小不变的同时降低计算成本,使用重要性引导聚合模块(IAM)固定Q的长度,但聚合K和V的tokens。

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

其中sg-former: self-guided transformer with evolving token reallocation,论文,人工智能是significance map。将S的值生序排列,分为n个子区域sg-former: self-guided transformer with evolving token reallocation,论文,人工智能。s1是最不重要的,Sn是最重要的。r是聚合率,每r个tokens聚合在一起。在不同重要性的区域设置了不同的聚合率r1,··,rn,使得每个子区域都有一个聚合率,并且子区域越重要,聚合率越小。

IAM的目标是在显著区域将更少的令牌聚合为一(即,保留更多),在背景区域将更多的令牌聚合成一(即保留更少)。

然后:

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

F是聚合函数。

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

2.2 Hybrid-scale Attention

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

H个heads分成h组,每组H/h个heads。

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能聚合成一个,Q不聚合,这样A和KV的数量不一样了,然后将QKV分窗口,窗口大小M,Q和KV数量不一样,所以Q的窗口大小是sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

计算注意力:

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

计算significance map:

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

3 实验结果

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能

sg-former: self-guided transformer with evolving token reallocation,论文,人工智能


反正现在试的,这个模型比VIT快很多,计算量也少很多,但是不知道效果,实验结果还没出来。文章来源地址https://www.toymoban.com/news/detail-791245.html

到了这里,关于论文阅读——SG-Former的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读1---OpenCalib论文阅读之factory calibration模块

    该论文的标定间比较高端,一旦四轮定位后,可确定标定板与车辆姿态。以下为本人理解,仅供参考。 工厂标定,可理解为车辆相关的标定,不涉及传感器间标定 该标定工具不依赖opencv;产线长度一般2.5米 Factory Calibration Tools:四轮定位+多位姿标定板 1)根据传感器安装位姿

    2024年01月25日
    浏览(47)
  • 【论文阅读】(2023.06.09-2023.06.18)论文阅读简单记录和汇总

    2023/06/09:虽然下周是我做汇报,但是到了周末该打游戏还是得打的 2023/06/12:好累好困,现在好容易累。 (TCSVT 2023)Facial Image Compression via Neural Image Manifold Compression (arxiv 2023)Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression (arxiv 2023)High-Similarity-Pass Attenti

    2024年02月09日
    浏览(41)
  • 【论文阅读】视线估计方向论文

    2022年过去,总结一下已经看过的论文的汇总以及对开展实验的一点想法: 首先,参考[1]中提出的分类,可以将 视线估计(gaze estimation) 分为: 注视目标估计 (gaze target detection,or gaze following),跨帧的视频注视目标估计; 注视点估计 ,估算人双目视线聚焦的在一个二维屏

    2023年04月08日
    浏览(111)
  • 【论文阅读】视频理解系列论文精读

    视频理解论文串讲(上)【论文精读】 我们研究了多种扩展CNN在时域上的连接性的方法,以利用局部的时空信息,并建议采用多分辨率、凹陷的架构作为加速训练的一种有希望的方式。 在图像领域积极成果的鼓舞下,我们研究了CNN在大规模视频分类中的表现,在这种情况下

    2023年04月09日
    浏览(38)
  • Mask2Former

    Masked-attention Mask Transformer for Universal Image Segmentation 图像分割是关于将不同语义的像素分组,例如,类别或实例成员关系,其中每个语义的选择定义了一个任务。虽然只是每个任务的语义不同,但目前的研究重点是为每个任务设计专门的体系结构。我们提出了一种新的架构Ma

    2024年02月07日
    浏览(32)
  • 论文阅读:Segment Anything之阅读笔记

    引言 论文:Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳,这不抽空拿来学习了一下。 该算法的代码写得很清楚、简洁和规范,读来让人赏心悦目。推荐去看源码,很有意思。 本篇文章,将以问答形式来解读阅读过程中遇到的困

    2024年02月13日
    浏览(37)
  • 【论文阅读】关于图像复杂度的论文

    根据位平面的(边缘/图像像素数)计算复杂度 对于象形文字,当将复杂性计算为空间频率中值平方和图像面积的乘积时,可以获得最高的相关性。 Haar 小波变换 HH 子带系数的高斯分布形状参数。复杂度低的图像,GGD 的形状参数较低,复杂度高的图像,GGD 的形状参数较高。

    2024年02月15日
    浏览(36)
  • 【论文阅读】YOLO系列论文:YOLO v5

    代码: https://github.com/ultralytics/yolov5github.com 优点 拥有四种模型,可以灵活部署 缺点 在性能上稍弱于YOLO V4 模型的改进 增加了Focus切片、自适应锚框、自适应图片缩放结构,保留信息,加快推理速度 有4个版本,分别是Yolov5s,Yolov5m,Yolov5l,yolov5x四个模型,其中Yolov5s网络是该

    2024年02月16日
    浏览(37)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(67)
  • 论文阅读:通过时空生成卷积网络合成动态模式(重点论文)

    原文链接 github code 介绍视频 视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvN

    2024年01月19日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包