【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Focal Modulation Networks

1. 资源链接

论文链接-arxiv
官方代码-github
官方博客-microsoft

2. 摘要

该论文提出了一个Focal Modulaiton network，将自注意力机制替换成focal modulation（聚焦调制）。这种机制包括3个组件：1）通过depth-wise Conv提取分级的上下文信息，同时编码短期和长期依赖。2）门控聚合，基于每个token的内容选择性的聚集视觉上下文。3）通过点乘或者仿射变换将汇聚的上下文信息注入query。
Focal Net 主要是在block中加入了Mulit-level 的特征融合机制，类似于目标检测中很常见的 FPN结构，同时学习粗粒度的空间信息和细粒度的特征信息，提高网络的性能。该网络做为新型的backbone，在分类，分割，目标检测，实例分割等任务上都取得了非常好的效果，尤其是基于DETR 框架的检测算法在COCO上取得了新的SOTA结果。
【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks

3. 结果

从下图可以看到，基于FocalNet的检测算法模型相对较小，训练数据也比较少，性能却有提高。
【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks

4. 特征可视化

从门控信号可视化可以看到，正如文章宣称的，不同level的特征可以注意到图像中不同的区域，包括图像局部特征区域和全局空间信息。
【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks

6. 和自注意力机制对比

6.1 定性分析

相比于自监督，FocalModulation 的输出关注了多尺度的上下文,算子更轻量化。
【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks

6.2 结构差异

自注意力中，key和qury是密集的矩阵相乘，Attention也是和value的密集矩阵乘积。而FocalNet中分别采用Depth-Wise Conv和Point-Wise Conv，计算更轻量化。
【Focal Net】NeuralPS2022 论文+代码解读 Focal Modulation Networks

7核心代码

Focal Modulation代码

class FocalModulation(nn.Module):
    def __init__(self,
                 dim,
                 focal_window,
                 focal_level,
                 focal_factor=2,
                 bias=True,
                 proj_drop=0.,
                 use_postln=False):
        super().__init__()
        self.dim = dim
        self.focal_window = focal_window
        self.focal_level = focal_level
        self.focal_factor = focal_factor
        self.use_postln = use_postln

        self.f = nn.Linear(dim, 2 * dim + (self.focal_level + 1), bias=bias) 
        self.h = nn.Conv2d(dim, dim, kernel_size=1, stride=1, bias=bias)  #1x1 卷积

        self.act = nn.GELU()
        self.proj = nn.Linear(dim, dim)  # output_dim=input_dim
        self.proj_drop = nn.Dropout(proj_drop)
        self.focal_layers = nn.ModuleList()
        self.kernel_sizes = []
        for k in range(self.focal_level):  # Hierarchical Context
            kernel_size = self.focal_factor * k + self.focal_window  # 多尺度kenel_size
            self.focal_layers.append(
                nn.Sequential(
                    nn.Conv2d(dim,
                              dim,
                              kernel_size=kernel_size,
                              stride=1,
                              groups=dim,  # groups==input_dim  depth-wise conv
                              padding=kernel_size // 2,
                              bias=False),
                    nn.GELU(),
                ))
            self.kernel_sizes.append(kernel_size)
        if self.use_postln:
            self.ln = nn.LayerNorm(dim)

    def forward(self, x):
        """
        Args:
            x: input features with shape of (B, H, W, C)
        """
        C = x.shape[-1]

        # pre linear projection
        x = self.f(x).permute(0, 3, 1, 2).contiguous()
        q, ctx, self.gates = torch.split(x, (C, C, self.focal_level + 1), 1)

        # context aggreation
        ctx_all = 0
        for l in range(self.focal_level):
            ctx = self.focal_layers[l](ctx)
            ctx_all = ctx_all + ctx * self.gates[:, l:l + 1]  #Gated Aggregation
        ctx_global = self.act(ctx.mean(2, keepdim=True).mean(3, keepdim=True)) # AvgPool 
        ctx_all = ctx_all + ctx_global * self.gates[:, self.focal_level:]  # 在局部 Context 上加入 全局Context

        # focal modulation
        self.modulator = self.h(ctx_all)
        x_out = q * self.modulator
        x_out = x_out.permute(0, 2, 3, 1).contiguous()
        if self.use_postln:
            x_out = self.ln(x_out)
        # post linear porjection
        x_out = self.proj(x_out)
        x_out = self.proj_drop(x_out)
        return x_out

Self-Attention 代码文章来源地址https://www.toymoban.com/news/detail-465250.html

def scaled_dot_product(q, k, v, mask=None):
    d_k = q.size()[-1]
    attn_logits = torch.matmul(q, k.transpose(-2, -1))
    attn_logits = attn_logits / math.sqrt(d_k)
    if mask is not None:
        attn_logits = attn_logits.masked_fill(mask == 0, -9e15)
    attention = F.softmax(attn_logits, dim=-1)
    values = torch.matmul(attention, v)
    return values, attention