论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models

这篇具有很好参考价值的文章主要介绍了论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Lugmayr A, Danelljan M, Romero A, et al. Repaint: Inpainting using denoising diffusion probabilistic models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 11461-11471.

效果展示

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

左图展示了masked image逐步去噪的过程;右图展示了基于扩散模型的Inpainting方法生成图片的多样性。

摘要

现有方法的问题:(1) 大部分方法都只在特定类型的mask上训练,对于任意的mask缺少泛化能力;(2) 模型只能匹配简单的纹理,缺少对高层次语义信息的理解。为此本文提出了基于扩散模型的Inpainting方法,对任意形状的mask具有良好的泛化能力,同时生成内容具有多样性,生成效果优于基于GAN和AR的方法。

背景介绍

图像Inpainting任务的要求:(1) 生成内容与背景内容相互协调,纹理一致; (2) 生成内容在语义上是合理的。扩散模型展现了强大的图像生成能力,因此本文尝试把它用在inpainting任务上。如果直接使用扩散模型原始的采样策略,能够满足要求(1),但生成内容在语义上通常是错误的,难以满足要求(2)。为了解决这个问题,本文提出了一种Resample的去噪策略(这也是论文方法叫RePaint的原因)。

相关工作

基于GAN的Inpainting方法:能生成确定性内容,缺少多样性;基于VAE的Inpainting方法:需要在生成能力和多样性之间追求trade-off。

方法

主要回答两个问题:

(1) 怎么把扩散模型用在Inpainting任务上?A: Conditioning on the known Region.

(2) 针对Inpainting任务本身的特性,对去噪过程做了改进?A: Resample.

Conditioning on the known Region

原始的扩散模型回顾

扩散模型分为前向加噪和反向去噪过程。前向加噪:给定输入图像和任意时间步tt时刻的噪声图像,可以直接计算得到:

反向去噪:给定t时刻的噪声图像,利用神经网络估计t时刻噪声,便能得到去噪后的t-1时刻的图像。重复去噪过程便能得到最终想要的去噪图像。

训练的时候,给定输入图片,先给图片加噪,然后将噪声图片输入模型,模型预测噪声,最后将预测噪声和真实加入的噪声计算MSE loss

预测的时候,输入随机噪声图像 ,模型预测噪声,计算得到去噪图像 ,重复去噪过程直至得到想要的图像。

扩散模型应用在Inpainting任务上

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

整体pipeline如图所示,对于给定的输入图片 和mask区域

(1) 对进行前向加噪,得到噪声图像;

(2) 对进行反向去噪,将输入训练好的扩散模型预测噪声,得到;

(3) 更新 :mask区域使用模型预测得到的,非mask区域使用前向加噪得到的 (已知和时间步t-1,便可直接计算得到t-1时刻的噪声图像)

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

(4) 新的再进入下一次的去噪过程。

Resample

如下图所示,只使用上述方法,模型能够生成相似的纹理,但是却不能保证语义上的正确性(没有理解应该生成一只完整的【狗】)。

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

究其原因,是因为在去噪的过程中加入了已知噪声的背景图像,但是这部分图像和模型生成的图像,只是简单的拼接到一起,两者没有产生任何交互,然后在下一次去噪的时候又是各去各的。

解决方法:Resample,就是在Pipeline中的步骤(3)之后,先跑几步前向加噪,然后再进行下一次去噪。改进效果如下图所示,额外加噪步数一般到10对性能的提升就饱和了。

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

实验

实验从对mask的鲁棒性、生成结果的多样性、语义上的正确性三方面进行评价。在人脸和通用场景上验证,分别在CelebA-HQ和ImageNet数据集上进行。ImageNet使用现成的预训练模型,CelebA-HQ则重新训练了一个预训练模型。图片尺寸256,去噪步数为256,其中进行resampling的次数为10,每次resample前向加噪的jumpy size为10。不用针对mask做额外训练,直接使用DDPM训练好的图像生成模型(也可以加类别引导)。

评价指标

(1) LPIPS:原图和生成图片过AlexNet得到特征,对比两个特征的distance,越小越好。这个指标不太准,如下图,重绘幅度较大,LPIPS大,但效果其实是好的。

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

(2) User Study:实验人员给不同方法生成的实验结果图打分,每张测试图片综合5个人的打分结果。

实验结果

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

横排是不同的mask类型,纵列是不同的方法,DSI和ICT都是基于AR的方法,AOT、DeepFillv2和LaMa都是基于GAN的方法。可以看到,在LPIPS指标上,本文方法均较低。对Usesr Study,以本文方法作为基准(100%),其它方法的票数百分比均低于本文方法。

定性效果

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

总结

使用训练好的扩散模型,在去噪过程中加入mask和resample策略,适配inpainting任务。文章来源地址https://www.toymoban.com/news/detail-811830.html

到了这里,关于论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise论文学习

    1.在基于重建的异常检测中, 不需要全长马尔可夫链扩散 。这导致我们开发了一种 新的部分扩散异常检测策略 ,可扩展到 高分辨率图像 ,名为 AnoDDPM 。 2.高斯扩散不能捕获较大的异常,因此,我们开发了一个 多尺度的单纯形噪声扩散过程 来 控制目标异常大小。 1.DDPM能够从

    2024年02月09日
    浏览(31)
  • 论文阅读:Feature Refinement to Improve High Resolution Image Inpainting

    项目地址:https://github.com/geomagical/lama-with-refiner 论文地址:https://arxiv.org/abs/2109.07161 发表时间:2022年6月29日 项目体验地址:https://colab.research.google.com/github/advimman/lama/blob/master/colab/LaMa_inpainting.ipynb#scrollTo=-VZWySTMeGDM 解决了在高分辨率下工作的神经网络的非绘制质量的下降问题

    2024年01月17日
    浏览(32)
  • 论文笔记DIGRESS: DISCRETE DENOISING DIFFUSION FORGRAPH GENERATION

            一些扩散模型的文章: https://zhuanlan.zhihu.com/p/640138441 https://blog.csdn.net/qq_43505867/article/details/130983606 https://blog.csdn.net/qq_51392112/article/details/129326444 目录 Abstract 1 Introduction 2 Diffusion models 3 DISCRETE DENOISING DIFFUSION FOR GRAPH GENERATION 3.1迭代过程与逆去噪迭代 3.2去噪网络参数

    2024年02月04日
    浏览(33)
  • 【论文笔记之 PYIN】PYIN, A Fundamental Frequency Estimator Using Probabilistic Threshold Distributions

    本文对 Matthias Mauch 和 Simon Dixon 等人于 2014 年在 ICASSP 上发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载,但请务必注明出处。 论文链接 : https://www.eecs.qmul.ac.uk/~simond/pub/2014/MauchDixon-PYIN-ICASSP2014.pdf 提出一种改进的 YIN 算法— PYIN ,其估计基

    2024年04月14日
    浏览(35)
  • 【图像修复】论文阅读笔记 ----- 《Image inpainting based on deep learning: A review》

    原文下载链接1:https://www.sciencedirect.com/science/article/abs/pii/S0141938221000391 原文下载链接2:http://s.dic.cool/S/KSS4D4LC 本篇论文综述发表于2021年。文章总结了基于深度学习的不同类型神经网络结构的修复方法,然后分析和研究了重要的技术改进机制;从模型网络结构和恢复方法等方

    2024年02月01日
    浏览(47)
  • 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文链接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting  [pdf]   [code] 本文创新点: 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用

    2024年02月08日
    浏览(30)
  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(50)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记

    由于大多数基于卷积神经网络或者Attention机制的超分辨模型大部分都是PSNR主导的,即用PSNR作为损失函数进行训练,这会导致超分辨图像过度平滑的问题,也就是超分辨后的图像高频信息不能很好保留,并且超分辨的图像较为固定,对于超分辨这种不适定问题来说不太合适。

    2024年02月11日
    浏览(35)
  • 论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然语言生成、翻译和理解的去噪序列对序列预训练 【机构】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    浏览(37)
  • 论文阅读:AdaBins: Depth Estimation using Adaptive Bins

    信息的全局处理会帮助提高整体深度估计。 提出的AdaBins预测的bin中心集中在较小的深度值附近,对于深度值范围更广的图像,分布广泛。 Fu et al. 发现将深度回归任务转化为分类任务可以提升效果,将深度范围分成固定数量的bins。本文则解决了原始方法的多个限制: 计算根

    2024年04月17日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包