近期调研

这篇具有很好参考价值的文章主要介绍了近期调研。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

近期论文阅读重点放在视觉领域中卷积与TRM结合的工作。
这些工作的主要动机有两点：

[ICCV 2019] Attention Augmented Convolutional Networks

卷积只对局部邻域运算，会丢失全局信息。

提出了Attention Augmentation method（注意增强方法），利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。

方法偏重与理论推导而非模型改变，但是具有很强的可借鉴意义。
可参考：Attention Augmented Convolutional Networks 笔记

卷积难以捕捉global feature，self-attention机制可以捕捉长距离的特征信息，但会模糊前景和弱化局部信息。

近期调研

卷积分支 CNN Branch
卷积分支使用ResNet结构
TRM分支 Transformer Branch
TRM分支使用ViT结构
特征融合模块FCU Feature Coupling Unit（重点）
除第一个Bottleneck外，每一个Bottleneck的3×3 conv输出的特征图进入到TRM分支进行feature fusion，FCU使用1×1卷积调整channel，使用down/up sampling调整H和W，BN和LN用于调整feature value，FCU被嵌入到网络的每个block中，更好地消除两种机制feature的语义差异。

单一的CNN和TRM均不能解决当前视觉领域存在的问题，并且作者观察到，在浅层网络，即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算，但最终学习的多数仍是局部表征，造成大量冗余的计算。

基于以上的观察，作者提供了将CNN和TRM结合的全新结构

近期调研
模型整体借鉴CNN层次化设计，每层包含多个Transformer风格的UniFormer block。

每个UniFormer block主要由三部分组成，动态位置编码DPE、多头关系聚合器MHRA）及Transformer必备的前馈层FFN，其中最关键的为多头关系聚合器。

与多头注意力相似，Uniformer将关系聚合器设计为多头风格，每个头单独处理一组channel的信息，每组的channel先通过线性变换生成上下文token $V_n(X)$ ，然后在token affinity $A_n$ 的作用下，对上下文信息进行聚合。这里设计两种MHRA

local MHRA：
local MHRA用于浅层网络，在网络的浅层（前两阶段），token affinity应该仅关注局部邻域上下文，这与convolution的设计是一样的，因而将局部关系聚合 $A_n^{local}$ 设计为可学习的参数矩阵，且token affinity的值只与相对位置有关。

其中 $X_i$ 为anchor token， $X_j$ 为局部邻域中的任一token， $a_n$ 为可学参数矩阵， $(i - j)$ 为二者相对位置，表明token affinity的值只与相对位置有关。
local UniFormer block与MobileNet block的风格相似，都是PWConv-DWConv-PWConv（见原论文解析），不同的是引入了额外的位置编码以及前馈层，这种特别的结合形式有效地增强了token的特征表达。
global MHRA
global MHRA用于深层网络，在网络的深层（后两阶段），对整个特征空间建立长时关系，这与self-attention的思想一致，因此通过比较全局上下文相似度建立token affinity

其中 $Q_n(.),K_n(.)$ 为不同的线性变换。

使用卷积位置编码设计动态位置编码
近期调研
DWConv为零填充的的深度可分离卷积。
一方面，卷积对任何输入形式都很友好，也很容易拓展到空间维度统一编码时空位置信息。另一方面，深度可分离卷积十分轻量，额外的零填充可以帮助每个token确定自己的绝对位置。

近期调研
FFN无特别设计，组合了两个线性层和一个GELU激活函数。

SPL全称IEEE Signal Processing Letters，篇幅较小，期刊要求4页正文，1页参文共五页**（双栏）**。
SPL全篇共有一下几部分

Introduction：与其他会议不同，SPL的Introduction实际是Intro+Related Works，尤其注意篇幅长度，相关工作篇幅应占据单栏一栏左右，其段落划分与书写顺序为：任务介绍意义（一段）、相关工作介绍（两段）、动机发现与模型概括（一段）、总结贡献与模型表现（一段）。Intro结束，篇幅应到达第二页左栏二分之一处（包括图1）；
Proposed Method（重点）：详细介绍模型和设计的模块。总结Intro中的相关工作，再次强调动机，同时引出模型结构图（一段），而后使用3-4段详细阐述模块的设计。Method部分结束，篇幅应达到第三页左侧栏结束（1-2个图）；
Experiments：简单介绍数据集（50-70词），介绍实验的设置，以及实验结果分析。这部分相对于会议论文的展示要少很多，可以做减法。在注意篇幅的情况下，尽可能给出表格与实验结果分析的图。Experiments结束，论文主要内容结束，注意预留200词左右的段落给结论部分即可；
Conclusions：与摘要对应，浓缩以上三个部分精华部分，但不能照抄。Conclusions结束，第四页结束，正文全部结束。