近期论文阅读重点放在视觉领域中卷积与TRM结合的工作。
这些工作的主要动机有两点:
- 卷积操作的局部性阻碍对全局特征的捕获
- TRM的self-attention机制用于长距离信息捕获已经被证明是一种很好的范式,但是其仍然存在一些问题,将在下文具体阐述。
[ICCV 2019] Attention Augmented Convolutional Networks
动机
卷积只对局部邻域运算,会丢失全局信息。
贡献
提出了Attention Augmentation method(注意增强方法),利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。
方法
方法偏重与理论推导而非模型改变,但是具有很强的可借鉴意义。
可参考:Attention Augmented Convolutional Networks 笔记
[ICCV 2021] Conformer: Local Features Coupling Global Representations for Visual Recognition
动机
卷积难以捕捉global feature,self-attention机制可以捕捉长距离的特征信息,但会模糊前景和弱化局部信息。
贡献
- 提出双主干网络Conformer,最大程度上获取local和global feature
- 提出特征耦合单元FCU,以一种交互性的方式将两路网络获取的特征融合
方法
- 卷积分支 CNN Branch
卷积分支使用ResNet结构 - TRM分支 Transformer Branch
TRM分支使用ViT结构 - 特征融合模块FCU Feature Coupling Unit(重点)
除第一个Bottleneck外,每一个Bottleneck的3×3 conv输出的特征图进入到TRM分支进行feature fusion,FCU使用1×1卷积调整channel,使用down/up sampling调整H和W,BN和LN用于调整feature value,FCU被嵌入到网络的每个block中,更好地消除两种机制feature的语义差异。
[ICLR 2022] UniFormer: Unifying Convolution and Self-attention for Visual Recognition
动机
单一的CNN和TRM均不能解决当前视觉领域存在的问题,并且作者观察到,在浅层网络,即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算,但最终学习的多数仍是局部表征,造成大量冗余的计算。
贡献
基于以上的观察,作者提供了将CNN和TRM结合的全新结构
- 浅层网络仅关注有限窗口的信息(CNN模式),深层网络关注整体信息,全局信息聚合(TRM模式)
- 将convolution和self-attention统一于token关系的学习中,模型兼顾两种范式的长处
方法
模型整体借鉴CNN层次化设计,每层包含多个Transformer风格的UniFormer block。
每个UniFormer block主要由三部分组成,动态位置编码DPE、多头关系聚合器MHRA)及Transformer必备的前馈层FFN,其中最关键的为多头关系聚合器。
MHRA 多头关系聚合:
与多头注意力相似,Uniformer将关系聚合器设计为多头风格,每个头单独处理一组channel的信息,每组的channel先通过线性变换生成上下文token V n ( X ) V_n(X) Vn(X),然后在token affinity A n A_n An的作用下,对上下文信息进行聚合。这里设计两种MHRA
- local MHRA:
local MHRA用于浅层网络,在网络的浅层(前两阶段),token affinity应该仅关注局部邻域上下文,这与convolution的设计是一样的,因而将局部关系聚合 A n l o c a l A_n^{local} Anlocal设计为可学习的参数矩阵,且token affinity的值只与相对位置有关。
其中 X i X_i Xi为anchor token, X j X_j Xj为局部邻域中的任一token, a n a_n an为可学参数矩阵, ( i − j ) (i-j) (i−j)为二者相对位置,表明token affinity的值只与相对位置有关。
local UniFormer block与MobileNet block的风格相似,都是PWConv-DWConv-PWConv(见原论文解析),不同的是引入了额外的位置编码以及前馈层,这种特别的结合形式有效地增强了token的特征表达。 - global MHRA
global MHRA用于深层网络,在网络的深层(后两阶段),对整个特征空间建立长时关系,这与self-attention的思想一致,因此通过比较全局上下文相似度建立token affinity
其中 Q n ( . ) , K n ( . ) Q_n(.),K_n(.) Qn(.),Kn(.)为不同的线性变换。
DPE 动态位置编码映射
使用卷积位置编码设计动态位置编码
DWConv为零填充的的深度可分离卷积。
一方面,卷积对任何输入形式都很友好,也很容易拓展到空间维度统一编码时空位置信息。另一方面,深度可分离卷积十分轻量,额外的零填充可以帮助每个token确定自己的绝对位置。
FFN 前馈神经网络
FFN无特别设计,组合了两个线性层和一个GELU激活函数。
总结:当前Video Transformer模型的主流改进方式
- 限制注意力关注区域,只关注部分时空位置【TimeSformer】
- 按照时空维度分解注意力计算过程【ViViT】;
- 引入卷积的归纳偏置,通过局部堆叠Encoder,将注意力集中在较小的邻域内【Swin TRM】;
- 以提取后的特征而非原始视频帧像素为输入,排除无用的信息,减少计算量【Uniformer】。
SPL模板写作分析
SPL全称IEEE Signal Processing Letters,篇幅较小,期刊要求4页正文,1页参文共五页**(双栏)**。
SPL全篇共有一下几部分文章来源:https://www.toymoban.com/news/detail-439632.html
摘要
- Abstract:按顺序为:简要介绍任务、动机、模型、设计模块、数据集,篇幅第一页左侧栏二分之一;
正文
- Introduction:与其他会议不同,SPL的Introduction实际是Intro+Related Works,尤其注意篇幅长度,相关工作篇幅应占据单栏一栏左右,其段落划分与书写顺序为:任务介绍意义(一段)、相关工作介绍(两段)、动机发现与模型概括(一段)、总结贡献与模型表现(一段)。Intro结束,篇幅应到达第二页左栏二分之一处(包括图1);
- Proposed Method(重点):详细介绍模型和设计的模块。总结Intro中的相关工作,再次强调动机,同时引出模型结构图(一段),而后使用3-4段详细阐述模块的设计。Method部分结束,篇幅应达到第三页左侧栏结束(1-2个图);
- Experiments:简单介绍数据集(50-70词),介绍实验的设置,以及实验结果分析。这部分相对于会议论文的展示要少很多,可以做减法。在注意篇幅的情况下,尽可能给出表格与实验结果分析的图。Experiments结束,论文主要内容结束,注意预留200词左右的段落给结论部分即可;
- Conclusions:与摘要对应,浓缩以上三个部分精华部分,但不能照抄。Conclusions结束,第四页结束,正文全部结束。
参考文献
注意格式和引文的遗漏。文章来源地址https://www.toymoban.com/news/detail-439632.html
到了这里,关于近期调研的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!