论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

原文链接：

2022

CVPR 2022

MAT: Mask-Aware Transformer for Large Hole Image Inpainting [pdf] [code]

本文创新点：

开发了一种新颖的修复框架 MAT，是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。
提出了一种新的多头自注意力 (MSA) 变体，称为多头上下文注意力 (MCA)，只使用有效的token来计算注意力。
设计了一个风格操作模块，使模型能够通过调节卷积的权重来提供不同的预测结果。

网络结构

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting 网络分为粗修复与细修复两个阶段。粗修复主要由一个卷积头，五个transformer模块和一个卷积尾构成；细修复采用一个 Conv-U-Net 来细化高频细节。

Convolutional Head

卷积头主要由四个卷积层构成，将3*512*512的图像转换成180*64*64的特征图，用来提取token。

Transformer Body

本文对transformer模块进行了改进，一是删除了层归一化，二是将残差连接改成了全连接层。

删除层归一化的原因：在大面积区域缺失的情况下，大部分的token是无效的，而层归一化会放大这些无效的token，从而导致训练不稳定；

删除残差连接的原因：残差连接鼓励模型学习高频内容，然而在刚开始大多数的token是无效的，在训练过程中没有适当的低频基础，很难直接学习高频细节，如果使用残差连接就会使优化变得困难。

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Multi-Head Contextual Attention

注意力模块利用移位窗口和动态掩码，只使用有效的token进行加权求和，

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中，论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting 表达式如下：

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中，论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting 为100。通过加上掩码，无效的token经过softmax后的权重几乎等于0。每次计算注意力后，将w*w大小的窗口的位置移动 (⌊ ⌋, ⌊ ⌋) 个位置，从而实现信息交互。