有关高效的视频行为识别架构设计-Toy模板网

这篇具有很好参考价值的文章主要介绍了有关高效的视频行为识别架构设计。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

有关高效的视频行为识别架构设计

[1] TSM

[2] STM: SpatioTemporal and Motion Encoding for Action Recognition

[3] TEA: Temporal Excitation and Aggregation for Action Recognition

STM是并行的channel-wise空时模块+channel-wise运动激励模块
TEA是串行的运动激励+多时序聚合

[4] TEINet: Towards an Efficient Architecture for Video Recognition

TEINet和TEA的运动激励模块基本一样，两个方法没有互相比较，算是同期工作，在考虑长期时序依赖时的处理方式不同
TSM、STM、TEA、TEINet计算复杂度基本相当;TEA精度最高

[5] Grouped Spatial-Temporal Aggregation for Efficient Action Recognition

ICCV文章。在ResNet block中，利用通道分割加分组卷积学习的方式，思想简单且有效。

（在本人提出的HGCT文章里已经用到了这个思想，最近应用到卷积Transformer架构中，无效果，手工设定的通道分割策略也是次优选择吧。）

[6] TAM:Temporal Adaptive Module for Video Recognition。

TAM与先前工作相比更有新鲜感，采用的时序建模方式很不一样，应用动态卷积的思想。

[6] Temporal Distinct Representation Learning for Action Recognition

ECCV文章。这篇文章无代码。文章表述不够清晰。渐进式增强模块有利用强化学习的思想，用先前block的特征，增强当前block的特征，实际上文章对这个block怎么理解都没表述清楚。

TEINet: Towards an Efficient Architecture for Video Recognition

王利民组工作

Temporal Enhancement-and-Interaction （TEI module）

主要思想：

TEI模块通过解耦通道相关性和时序相互作用的建模，提出了一种不同的范式来学习时间特征。

模块设计：
- 运动增强模块（Motion Enhancement Module, MEM）
  
  增强运动相关的特征、抑制不相关的特征
- 时序交互模块（Temporal Interaction Module, TIM）
  
  以通道级的方式补充时序上下文信息
两阶段的建模方案可以灵活且有效地获取时序结构，高效进行模型推理
论文中对时序信息建模发展的一些思考
- TSN 直接忽略时间顺序，在最后一层分类层聚合时序信息
- Stnet 和 TSM 实现缓慢且更早地表征时间特征（逐层表征），但涉及一些手动的设计，缺乏清晰的解释所以更能在时序建模上是次优的
- 3D学习时间信息固然有效，但是2D到3D卷积的直接扩展导致的关键性问题是昂贵的计算开销。
- 直觉上讲，视频中的时序结构可以多方面的受益
视频中的时序信息对动作识别来说有什么用？
- 运动信息 帮助关注运动的对象和人，这对动作识别来说是更有判别力的
- 视觉特征的时序变化 这能够让我们获取视频中的动态变化，关联邻近帧的特征
作者从这两点出发，先捕获判别式特征，再构建时序交互

这种独特的设计使我们能够以更原则和更有效的方式分别捕获通道级相关性和时间关系。事实证明，这种独立的建模方案不仅能够灵活有效地捕获时间结构，而且在实践中保持较高的推理效率。

问题：通道级的相关性能表示时序运动？

有关高效的视频行为识别架构设计

模块具体设计：

1， Motion Enhanced Module (MEM)

使用邻近帧级特征的时序差，以通道级的方式，增强运动相关的特征

输入特征 $x_{t} \in R^{C \times H\times W} $,

沿着空间维度 $H\times W$ 作平均池化聚合特征图，得到$\hat{x}_{t} \in R^{C \times 1\times 1} $;

利用池化得到的特征，生成通道注意力权重。

$x_t$ 和 $x_{t+1}$ ; 空间上的全局平均池化
两个 $1\times 1$ 的卷积分别处理两个邻近帧的特征，降维
降维后的邻近帧特征作差，再利用 $1\times 1$ 卷积恢复为原来维度
Sigmoid激活得到注意力权重 $\hat{s_t}$
增强运动显著的特征： $u_t=\hat{s_t}x_t$

2，时序交互模块

针对运动增强获取的局部时间窗口信息，挖掘视觉模式的时序演变

$T\times C\times H\times W$ -> $C\times T\times H\times W$

TAM: Temporal Adaptive Module for Video Recognition

Motivation

时序动态的复杂性由多种因素导致：摄像机运动、速度变化和不同的活动。

作者为了捕获这种运动模式上的差异（diverse motion pattern），提出时序自适应模块（Temporal adaptive module, TAM）。

先前工作对时序结构的处理

1，3D CNN

简单的2D扩展引入昂贵的计算开销
应用固定数量的视频不变的时序核，无法很好描述运动差异

2，最近为了更高效地获取视频的时序结构，一些工作：a . 在2D CNN的基础上设计轻量的时序模块；b. 设计专门的时序模块。

但是如何设计高效且具有很好灵活性的时序模块仍然是未解决的问题

TAM

概述

1，主要想法：基于自身的特征图生成特定视频的时序核（video-specific temporal kernels）

2, 怎么做：两层的自适应建模方案，将video-specific temporal kernels解耦为位置敏感的重要性图和位置不变的聚合权重

location sensitive importance map: 在局部时间窗口中获取短期时间信息，增强local view中具有判别力的时序信息

location invariant aggregation weight: 全局地关注长期的时序结构，获取global view中的时序依赖

3，TAM的设计遵循两个准则： high efficiency and strong flexibility

具体细节

有关高效的视频行为识别架构设计

1，保证TAM的低计算开销：

应用全局空间池化，squeeze特征图；

以channel-wise的方式构建TAM来保证效率

2，TAM由两个分支组成：

Local branch: $\mathcal{L} $

Global branch: $\mathcal{G} $

实施细节

一个视频clip的输入特征图：

以 $X\in R^{C\times T\times H\times W}$ 的方式，，输入到TAM中。

经过空间全局平均池化，得到 $\hat{X}\in R^{C\times T}$

Local branch

1, Conv1D(kernel_size=3)+BN+ReLU : 减少通道数目 $\frac{C}{\beta}$ ; $\beta=4$

2, Conv1D(kernel_size=3)+Sigmoid 得到注意力权重， $V\in R^{C\times T}$

3, Rescale $V\in R^{C\times T}$ -> $\hat{V}\in R^{C\times T\times H \times W}$

4, 与原始输入特征 $X$ 作元素级点乘，得到 $Z\in R^{C\times T\times H \times W}$

Global branch

全局的分支是局部不变的，目的是基于长期的时序信息生成一个自适应的核。它结合全局上下文信息，学习生成位置不变量和视频自适应卷积核，用于动态聚合。

怎么做呢？

这里作者选择为每个视频片段生成动态时序核，并以卷积的方式聚合时间信息。

为了简化过程且保证高效性，以channel-wise的方式应用自适应卷积，学习到的自适应核用于建模时序关联，而不考虑通道关联。

因此，TAM不会改变输入特征图的通道数目，学习到的自适应核以channel-wise的方式卷积输入特征图。

公式化表达如下：

对 $c^{th}$ 个通道，the adaptive kernel的学习过程如下：

$\Theta_{c}=\mathcal{G}(X)_c=softmax(\mathcal{F}(W_2),\delta(\mathcal{F}(W_1),\phi (X)_c)$

$\Theta_{c}\in R^{K}$

1，FC_layer1+ReLU: $\hat{X}\in R^{C\times T}$ -> $\hat{X}\in R^{\alpha C\times T}$ ；（ $\alpha=2$ ）

2, FC_layer2+Softmax

softmax产生的是positive aggregation weight

学习到的聚合权重

$\Theta={\Theta_1, \Theta_2,...\Theta_C}$

视频自适应聚合： $Y=\mathcal{G}(X)\otimes X$ ,

由 $\mathcal{G}$ 生成的Kernel可以进行自适应卷积，但仍然在所有的时序维度共享，并且仍然是location invariant（位置不变的）。
有关高效的视频行为识别架构设计

位置敏感的激励和位置不变的聚合都是从输入特征图中推理得到的，但是关注了短期和长期两种时序模式。

Note

1，作者在局部和全局分支中都利用了两层的Conv1D堆叠或，两个FC层来实现非线性拟合能力和模型复杂度的折中。

2，全局分支借鉴了动态卷积的思想，直接生成动态核的权重，论文中设置动态核的接受域为K。

对每个通道，学习到的动态核的形式为：[0,0,1];[0,1,0];[1,0,0]三种么？还是更多排列组合?

ECCV-Temporal Distinct Representation Learning for Action Recognition

Motivation

2D CNN在分析视频时，不同的视频帧共享相同的卷积核，这可能导致重复且冗余的信息利用，尤其是在空间语义提取上，因此忽略了关键的帧间变化信息。

Mian idea

作者尝试通过两种方式来解决这个问题，

Design a sequential channel fifiltering mechanism, i.e., Progressive Enhancement Module (PEM),）;

一步步地从不同帧中，激励具有判别力的通道特征，从而避免重复的信息激励
构造时序差异损失，force卷积核关注帧间的时序变化，而不是具有相似外观的图像区域