入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！

这篇具有很好参考价值的文章主要介绍了入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文首发: AIWalker

在Transformer如日中天时，一个称之为“Mamba”的架构横冲出世，在语言建模上与Transformers不相上下，具有线性复杂度，同时具有5倍的推理吞吐量！一时之间，被给予厚望“下一代架构”~

就在今日，华中科技大学王兴刚团队首次将“Mamda”里面引入到CV领域而得到Vim公开了，比DeiT精度更高、速度更快，还节省GPU显存，神了，估计后续会出现各种变种，DeiM、PvM，哈哈~

入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！,网络架构,Transformer,深度学习

https://arxiv.org/abs/2401.09417
https://github.com/hustvl/Vim

最近，具有高效硬件感知设计的状态空间模型(State Space Models, SSM)曼巴，已显示出在长序列建模方面的巨大潜力。虽然基于SSM构建高效和通用的视觉骨干是一个有吸引力的方向。但是，由于视觉数据的位置敏感性、视觉理解所需要的全局上下文依赖性，表示视觉数据对于SSM而言是一项具有挑战性的任务。因此，我们提出了一个新的基于双向曼巴块（Vim）的通用视觉骨干，该模型通过位置嵌入标记图像序列并通过双向状态空间模型压缩视觉表示。
在ImageNet分类、COCO检测和ADE20K语义分割任务上，Vim实现了与成熟ViT(如DeiT)相比更高的性能，同时显著提高了计算和内存效率。例如，与DeiT相比，在对分辨率为1248×1248的图像进行批量推理时，Vim快了2.8倍同时可节省86.8%的GPU内存。这些结果表明，Vim具有克服ViT处理高分辨率图像时的计算和内存限制的潜力，并有可能成为下一代视觉基础模型。

入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！,网络架构,Transformer,深度学习

本文方案

本文所提Vim(Vision Mamba)旨在将陷阱的SSM模型(如Mamba)引入到CV领域，故先对SSM进行简要介绍，然后再介绍如何结合CV任务特性进行Vim模块设计，最后呈现所提Vim架构细节。

Preliminaries

SSM类模型(如S4)与Mamba灵感源自于连续系统，它通过隐状态 $\in \mathbb{R}^N$ 将1D函数或序列 $\in \mathbb{R}$ y映射到 $\in \mathbb{R}$ ，即 $\in \mathbb{R} \mapsto y(t) \in \mathbb{R}$ 。该系统采用 $\mathbf{A} \in \mathbb{R}^{N \times N}$ 表示进化参数， $\mathbf{B}^{1\times N}, \mathbf{C} \in \mathbb{R}^{1\times N}$ 则表示投影参数。

$\begin{align} h^{'}(t) &= \mathbf{A}h(t) + \mathbf{B}x(t) \\ y(t) &= \mathbf{C} h^{'}(t) \end{align}$

S4与Mamba均为连续系统的离散版本，它引入时间尺度参数 $\Delta$ 将连续参数 $\mathbf{A}, \mathbf{B}$ 变换为离散参数 $\overline{\mathbf{A}}, \overline{\mathbf{B}}$ 。通用ZOH方案描述如下：

$\begin{align} \overline{\mathbf{A}} &= exp(\Delta \mathbf{A}) \\ \overline{\mathbf{B}} &= (\Delta \mathbf{A})^{-1}(exp(\Delta \mathbf{A}) - I) \cdot \Delta \mathbf{B} \end{align}$

带入上述离散参数，前述连续系统搞的离散版本重写如下：

$$
\begin{align}
h_t &= \overline{\mathbf{A}} h_{t-1} + \overline{\mathbf{B}} x_t \
y_t &= \mathbf{C}h_t

\end{align}
$$

最后，通过全局卷积计算模型输出：

$\begin{align} \overline{\mathbf{K}} &= (\mathbf{C}\overline{\mathbf{B}}, \mathbf{C}\overline{\mathbf{A}\mathbf{B}}, \cdots, \mathbf{C}\overline{\mathbf{A}}^{M-1}\overline{\mathbf{B}}) \\ \mathbf{y} &= \mathbf{x} * \overline{\mathbf{K}} \end{align}$

注：M为输入序列x的长度， $\overline{\mathbf{K}} \in \mathbf{R}^M$ 表示结构化卷积核。

Vision Mamba

入局CV，Mamba再显神威！华科王兴刚团队首次将Mamba引入ViT，更高精度、更快速度、更低显存！,网络架构,Transformer,深度学习

上图给出了所提Vim示意图，标准Mamba是针对1D序列而设计。为更好的处理视觉任务，我们首先将2D图 $\in \mathbb{R}^{H \times W \times C}$ 变换为2D块 $\mathbf{x}_{p} \in \mathbb{R}^{J \times (p^2 \cdot C)}$ ；然后，我们对其进行线性投影到D维并添加位置嵌入 $\mathbf{E}_{pos} \in \mathbb{R}^{(J+1)\times D}$ ：

$\mathbf{T}_0 = [\mathbf{t}_{cls}; \mathbf{t}_p^1 \mathbf{W};\mathbf{t}_p^2 \mathbf{W};\cdots;\mathbf{t}_p^J \mathbf{W}] + \mathbf{E}_{pos}$

受启发于ViT与BERT，我们同样采用类别Token(即 $\mathbf{t}_{cls}$ )表示完整块序列。我们将Token序列（ $\mathbf{T}_{l-1}$ ）送入到第 $l$ 个Vim编码器并得到输出 $\mathbf{T}_{l}$ 。最后，我们对 $\mathbf{T}_{L}^0$ 进行规范化并送入到MLP头得到最终预测 $\hat{p}$ 。

$\begin{align} \mathbf{T}_l &= \mathbf{Vim}(\mathbf{T}_{l-1}) + \mathbf{T}_{l-1} \\ \mathbf{f} &= \mathbf{Norm}(\mathbf{T}_L^0) \\ \hat{p} &= \mathbf{MLP}(\mathbf{f}) \end{align}$