近期调研

这篇具有很好参考价值的文章主要介绍了近期调研。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


近期论文阅读重点放在视觉领域中卷积与TRM结合的工作。
这些工作的主要动机有两点:
  • 卷积操作的局部性阻碍对全局特征的捕获
  • TRM的self-attention机制用于长距离信息捕获已经被证明是一种很好的范式,但是其仍然存在一些问题,将在下文具体阐述。

[ICCV 2019] Attention Augmented Convolutional Networks

动机

卷积只对局部邻域运算,会丢失全局信息。

贡献

提出了Attention Augmentation method(注意增强方法),利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。

方法

方法偏重与理论推导而非模型改变,但是具有很强的可借鉴意义。
可参考:Attention Augmented Convolutional Networks 笔记

[ICCV 2021] Conformer: Local Features Coupling Global Representations for Visual Recognition

动机

卷积难以捕捉global feature,self-attention机制可以捕捉长距离的特征信息,但会模糊前景和弱化局部信息。

贡献

  1. 提出双主干网络Conformer,最大程度上获取local和global feature
  2. 提出特征耦合单元FCU,以一种交互性的方式将两路网络获取的特征融合

方法

近期调研

  1. 卷积分支 CNN Branch
    卷积分支使用ResNet结构
  2. TRM分支 Transformer Branch
    TRM分支使用ViT结构
  3. 特征融合模块FCU Feature Coupling Unit(重点)
    除第一个Bottleneck外,每一个Bottleneck的3×3 conv输出的特征图进入到TRM分支进行feature fusion,FCU使用1×1卷积调整channel,使用down/up sampling调整H和W,BN和LN用于调整feature value,FCU被嵌入到网络的每个block中,更好地消除两种机制feature的语义差异。

[ICLR 2022] UniFormer: Unifying Convolution and Self-attention for Visual Recognition

动机

单一的CNN和TRM均不能解决当前视觉领域存在的问题,并且作者观察到,在浅层网络,即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算,但最终学习的多数仍是局部表征,造成大量冗余的计算。

贡献

基于以上的观察,作者提供了将CNN和TRM结合的全新结构

  1. 浅层网络仅关注有限窗口的信息(CNN模式),深层网络关注整体信息,全局信息聚合(TRM模式)
  2. 将convolution和self-attention统一于token关系的学习中,模型兼顾两种范式的长处

方法

近期调研
模型整体借鉴CNN层次化设计,每层包含多个Transformer风格的UniFormer block。
近期调研
每个UniFormer block主要由三部分组成,动态位置编码DPE、多头关系聚合器MHRA)及Transformer必备的前馈层FFN,其中最关键的为多头关系聚合器

MHRA 多头关系聚合:

与多头注意力相似,Uniformer将关系聚合器设计为多头风格,每个头单独处理一组channel的信息,每组的channel先通过线性变换生成上下文token V n ( X ) V_n(X) Vn(X),然后在token affinity A n A_n An的作用下,对上下文信息进行聚合。这里设计两种MHRA

  1. local MHRA:
    local MHRA用于浅层网络,在网络的浅层(前两阶段),token affinity应该仅关注局部邻域上下文,这与convolution的设计是一样的,因而将局部关系聚合 A n l o c a l A_n^{local} Anlocal设计为可学习的参数矩阵,且token affinity的值只与相对位置有关。
    近期调研
    其中 X i X_i Xi为anchor token, X j X_j Xj为局部邻域中的任一token, a n a_n an为可学参数矩阵, ( i − j ) (i-j) (ij)为二者相对位置,表明token affinity的值只与相对位置有关。
    local UniFormer block与MobileNet block的风格相似,都是PWConv-DWConv-PWConv(见原论文解析),不同的是引入了额外的位置编码以及前馈层,这种特别的结合形式有效地增强了token的特征表达。
  2. global MHRA
    global MHRA用于深层网络,在网络的深层(后两阶段),对整个特征空间建立长时关系,这与self-attention的思想一致,因此通过比较全局上下文相似度建立token affinity
    近期调研
    其中 Q n ( . ) , K n ( . ) Q_n(.),K_n(.) Qn(.),Kn(.)为不同的线性变换。

DPE 动态位置编码映射

使用卷积位置编码设计动态位置编码
近期调研
DWConv为零填充的的深度可分离卷积。
一方面,卷积对任何输入形式都很友好,也很容易拓展到空间维度统一编码时空位置信息。另一方面,深度可分离卷积十分轻量,额外的零填充可以帮助每个token确定自己的绝对位置。

FFN 前馈神经网络

近期调研
FFN无特别设计,组合了两个线性层和一个GELU激活函数。

总结:当前Video Transformer模型的主流改进方式

  1. 限制注意力关注区域,只关注部分时空位置【TimeSformer】
  2. 按照时空维度分解注意力计算过程【ViViT】;
  3. 引入卷积的归纳偏置,通过局部堆叠Encoder,将注意力集中在较小的邻域内【Swin TRM】;
  4. 以提取后的特征而非原始视频帧像素为输入,排除无用的信息,减少计算量【Uniformer】。

SPL模板写作分析

SPL全称IEEE Signal Processing Letters,篇幅较小,期刊要求4页正文,1页参文共五页**(双栏)**。
SPL全篇共有一下几部分

摘要

  • Abstract:按顺序为:简要介绍任务、动机、模型、设计模块、数据集,篇幅第一页左侧栏二分之一;

正文

  • Introduction:与其他会议不同,SPL的Introduction实际是Intro+Related Works,尤其注意篇幅长度,相关工作篇幅应占据单栏一栏左右,其段落划分与书写顺序为:任务介绍意义(一段)、相关工作介绍(两段)、动机发现与模型概括(一段)、总结贡献与模型表现(一段)。Intro结束,篇幅应到达第二页左栏二分之一处(包括图1);
  • Proposed Method(重点):详细介绍模型和设计的模块。总结Intro中的相关工作,再次强调动机,同时引出模型结构图(一段),而后使用3-4段详细阐述模块的设计。Method部分结束,篇幅应达到第三页左侧栏结束(1-2个图);
  • Experiments:简单介绍数据集(50-70词),介绍实验的设置,以及实验结果分析。这部分相对于会议论文的展示要少很多,可以做减法。在注意篇幅的情况下,尽可能给出表格与实验结果分析的图。Experiments结束,论文主要内容结束,注意预留200词左右的段落给结论部分即可;
  • Conclusions:与摘要对应,浓缩以上三个部分精华部分,但不能照抄。Conclusions结束,第四页结束,正文全部结束。

参考文献

注意格式和引文的遗漏。文章来源地址https://www.toymoban.com/news/detail-439632.html

到了这里,关于近期调研的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器

    BiFormer: Vision Transformer with Bi-Level Routing Attention 视觉转换器的核心组成部分,注意力是捕捉长期依赖关系的有力工具 计算跨所有空间位置的成对token交互时,计算负担和沉重的内存占用 提出了一种新的动态稀疏注意,通过双层路由实现更灵活的内容感知计算分配     过程:

    2024年02月12日
    浏览(51)
  • 【论文阅读】基于纤维束成像的新型微结构信息引导的监督对比学习,自动识别视网膜丘视觉通路

    Li, S., Zhang, W., Yao, S., He, J., Zhu, C., Gao, J., Xue, T., Xie, G., Chen, Y., Torio, E. F., Feng, Y., Bastos, D. C. A., Rathi, Y., Makris, N., Kikinis, R., Bi, W. L., Golby, A. J., O’Donnell, L. J., Zhang, F. (2024). Tractography-based automated identification of the retinogeniculate visual pathway with novel microstructure-informed supervised contrast

    2024年02月01日
    浏览(39)
  • 【论文阅读系列】NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA) 计算机视觉

    计算机视觉 参考:博客1 知乎2 在这里进行纪录分享,这是有用的资料,避免之后再寻找相当麻烦。 小目标检测是一个非常具有挑战性的问题,因为小目标只包含几个像素大小。作者证明,由于缺乏外观信息,最先进的检测器也不能在小目标上得到令人满意的结果。作者的主

    2024年02月05日
    浏览(58)
  • 近期微软重大论文----《通用人工智能的火花:GPT-4的早期实验》

      这篇论文是最近讨论度极高的一篇论文,推特上几乎被这篇论文刷屏,作者Sebastien Bubeck是微软机器学习基础组的研究经理。他本人之前的研究主要集中在机器学习理论,凸优化,对抗鲁棒性方法,下面是该大佬的个人主页: 虽然作者是做理论ML出身,但是这篇论文中却没有

    2024年02月05日
    浏览(64)
  • 论文导读|Operations Research近期文章精选:零售业的未来何在?

      作者:Evelyn Yao 清华大学本科在读 编者按 在“Operations Research近期论文精选”中,我们有主题、有针对性地选择了Operations Research中一些有趣的文章,不仅对文章的内容进行了概括与点评,而且也对文章的结构进行了梳理,旨在激发广大读者的阅读兴趣与探索热情。在本期“

    2023年04月11日
    浏览(50)
  • 视觉大模型调研(Survey of Visual Foundation Model)

    目录 A.写在前面 B.论文支撑与基础理论 1.大模型基本概念的诞生 2.大模型产业化落地的理论支撑 3.视觉模型架构的形成-Transformer到ViT再到MAE C.产业落地化现状 1.百度文心 UFO 2.0 整体概述 原理介绍 模型效果 应用场景与方案 2.华为 盘古CV视觉大模型 模型预训练 模型部署与模型

    2024年02月09日
    浏览(72)
  • 图像色彩增强论文调研

    Deep Symmetric Network for Underexposed Image Enhancement with Recurrent Attentional Learning(ICCV2021) 使用对称编码器和解码器学习图像从低曝光转化到正常图片的映射方式,通过IFT(Invertible Feature Transformer)网络和提出模块RRAM学习到低曝光转化到正常图片映射关系; DPE-Deep Photo Enhancer Unpaired Le

    2024年02月11日
    浏览(44)
  • 合创视觉APP设计色彩搭配重点

    现如今人机交互主要通过GUI来实现,色彩在交互过程中扮演着重要的角色。良好的色彩搭配会帮助用户发现页面中的重点     色彩的数目     在APP的界面中,尽量不要使用过多的颜色。诚然,过少的颜色搭配很难第一眼就能吸引住用户。但是你的APP毕竟不是一锤子买卖

    2024年02月01日
    浏览(35)
  • 《计算机视觉技术与应用》重点复盘

    《计算机视觉技术与应用》-----第二章 图像处理基础 《计算机视觉技术与应用》-----第三章 图形用户界面 《计算机视觉技术与应用》-----第四章 图像变换 《计算机视觉技术与应用》-----第五章 边缘和轮廓 《计算机视觉技术与应用》-----第六章 边缘和轮廓 《计算机视觉技术

    2023年04月08日
    浏览(44)
  • 【论文笔记】神经网络压缩调研

     小模型,参数少,容易将ML模型部署在资源有限的设备上,但是直接训练一个好的小网络比较困难 基于参数修建和共享的方法针对模型参数的冗余性 试图取出冗余和不重要的项 基于低秩因子分解的技术使用矩阵/张量分解来估计深度学习模型的信息参数 基于传输/紧凑卷积

    2024年02月14日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包