论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

这篇具有很好参考价值的文章主要介绍了论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:

2022

CVPR 2022

MAT: Mask-Aware Transformer for Large Hole Image Inpainting [pdf] [code]

本文创新点:

  1. 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。
  2. 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用有效的token来计算注意力。
  3. 设计了一个风格操作模块,使模型能够通过调节卷积的权重来提供不同的预测结果。

网络结构

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting网络分为粗修复与细修复两个阶段。粗修复主要由一个卷积头,五个transformer模块和一个卷积尾构成;细修复采用一个 Conv-U-Net 来细化高频细节。

Convolutional Head

卷积头主要由四个卷积层构成,将3*512*512的图像转换成180*64*64的特征图,用来提取token。

Transformer Body

本文对transformer模块进行了改进,一是删除了层归一化,二是将残差连接改成了全连接层。

删除层归一化的原因:在大面积区域缺失的情况下,大部分的token是无效的,而层归一化会放大这些无效的token,从而导致训练不稳定;

删除残差连接的原因:残差连接鼓励模型学习高频内容,然而在刚开始大多数的token是无效的,在训练过程中没有适当的低频基础,很难直接学习高频细节,如果使用残差连接就会使优化变得困难。

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Multi-Head Contextual Attention

注意力模块利用移位窗口和动态掩码,只使用有效的token进行加权求和,

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中,论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting表达式如下:

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中,论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting为100。通过加上掩码论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting,无效的token经过softmax后的权重几乎等于0。每次计算注意力后,将w*w大小的窗口的位置移动 (⌊ 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting ⌋, ⌊ 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting ⌋) 个位置,从而实现信息交互。

Mask Updating Strategy

更新规则:只要当前窗口有一个token是有效的,经过注意力后,该窗口中的所有token都会更新为有效的。如果一个窗口中的所有token都是无效的,经过注意力后,它们仍然无效。

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Style Manipulation Module

它通过在带有额外噪声输入的重建过程中改变卷积层的权重归一化来操纵输出。为了增强噪声输入的表示能力,我们强制图像条件风格论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting从图像特征X 和噪声无条件风格论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting中学习,

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中,B为随机二值掩码(值为1的概率为p,为0的概率为1− p),εF都为映射函数,最终的风格是融合两种风格得到的

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中,A为映射函数,则卷积的权重W更新为

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

其中,i,j,k分别为输入通道,输出通道,卷积核的大小,ε为很小的常数。

损失函数

Adversarial Loss

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Perceptual Loss.

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Overall Loss

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting文章来源地址https://www.toymoban.com/news/detail-482099.html

到了这里,关于论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RIS 系列 Mask Grounding for Referring Image Segmentation 论文阅读笔记

    写在前面   一篇 Arxiv 上面的新文章,看看清华大佬们的研究。 论文地址:Mask Grounding for Referring Image Segmentation 代码地址:原论文说将会开源,静待佳音~ 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 6 千粉丝有你的参与呦~   

    2024年02月03日
    浏览(55)
  • 【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

    论文:https://arxiv.org/abs/2303.10438 代码:https://github.com/wpy1999/SAT/blob/main/Model/SAT.py 这篇文章的方法应该属于FAM这一类。 额外添加的一个spatial token,从第10-12层开始,利用其得到的attn map (对hea求mean–B, 1, 1, N+2) 作为visual cue去指出oject region,作用方式为将attn map 点乘到 attn weight

    2023年04月14日
    浏览(49)
  • 论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

     目录 一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果 二、摘要 三、介绍 四、相关工作 五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略 六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论      

    2024年04月12日
    浏览(54)
  • 【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

    该论文发布在 ICCAD’21 会议。该会议是EDA领域的顶级会议。 Author Hardware Problem Perspective Algorithm/Strategy Improvment/Achievement Fuxun Yu GPU Resource under-utilization Contention SW Scheduling Operator-level scheduling ML-based scheduling auto-search Reduced inference makespan Fuxun Yu 是一名来自微软的研究员。主要研究

    2024年01月24日
    浏览(48)
  • 论文阅读——Large Selective Kernel Network for Remote Sensing Object Detection

    期刊 CVPR 年份 2023 论文地址 https://arxiv.org/pdf/2303.09030.pdf 代码地址 https://github.com/zcablii/LSKNet 遥感目标检测的大选择核网络 相对较少的工作考虑到强大的先验知识存在于遥感图像。航空图像通常是用高分辨率的鸟瞰图拍摄的。特别是,航拍图像中的大多数物体可能体积较小,

    2024年02月08日
    浏览(51)
  • 【论文阅读】LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

    这是南开大学在ICCV2023会议上新提出的旋转目标检测算法,基本原理就是通过一系列Depth-wise 卷积核和空间选择机制来动态调整目标的感受野,从而允许模型适应不同背景的目标检测。 论文地址:https://arxiv.org/pdf/2303.09030.pdf 代码地址(可以直接使用mmrotate框架实现):GitHub

    2024年02月07日
    浏览(47)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(61)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(43)
  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(44)
  • 论文阅读:FCB-SwinV2 Transformer for Polyp Segmentation

    这是对FCBFormer的改进,我的关于FCBFormer的论文阅读笔记:论文阅读FCN-Transformer Feature Fusion for PolypSegmentation-CSDN博客 依然是一个双分支结构,总体结构如下: 其中一个是全卷积分支,一个是Transformer分支。 和FCBFormer不同的是,对两个分支都做了一些修改。 本文没有画FCB分支的

    2024年04月24日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包