论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models

这篇具有很好参考价值的文章主要介绍了论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Lugmayr A, Danelljan M, Romero A, et al. Repaint: Inpainting using denoising diffusion probabilistic models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 11461-11471.

效果展示

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

左图展示了masked image逐步去噪的过程；右图展示了基于扩散模型的Inpainting方法生成图片的多样性。

摘要

现有方法的问题：(1) 大部分方法都只在特定类型的mask上训练，对于任意的mask缺少泛化能力；(2) 模型只能匹配简单的纹理，缺少对高层次语义信息的理解。为此本文提出了基于扩散模型的Inpainting方法，对任意形状的mask具有良好的泛化能力，同时生成内容具有多样性，生成效果优于基于GAN和AR的方法。

背景介绍

图像Inpainting任务的要求：(1) 生成内容与背景内容相互协调，纹理一致； (2) 生成内容在语义上是合理的。扩散模型展现了强大的图像生成能力，因此本文尝试把它用在inpainting任务上。如果直接使用扩散模型原始的采样策略，能够满足要求(1)，但生成内容在语义上通常是错误的，难以满足要求(2)。为了解决这个问题，本文提出了一种Resample的去噪策略（这也是论文方法叫RePaint的原因）。

方法

主要回答两个问题：

(1) 怎么把扩散模型用在Inpainting任务上？A: Conditioning on the known Region.

(2) 针对Inpainting任务本身的特性，对去噪过程做了改进？A: Resample.

Conditioning on the known Region

原始的扩散模型回顾

扩散模型分为前向加噪和反向去噪过程。前向加噪：给定输入图像和任意时间步t，t时刻的噪声图像，可以直接计算得到：

反向去噪：给定t时刻的噪声图像，利用神经网络估计t时刻噪声，便能得到去噪后的t-1时刻的图像。重复去噪过程便能得到最终想要的去噪图像。

训练的时候，给定输入图片，先给图片加噪，然后将噪声图片输入模型，模型预测噪声，最后将预测噪声和真实加入的噪声计算MSE loss。

预测的时候，输入随机噪声图像，模型预测噪声，计算得到去噪图像，重复去噪过程直至得到想要的图像。

扩散模型应用在Inpainting任务上

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

整体pipeline如图所示，对于给定的输入图片和mask区域

(1) 对进行前向加噪，得到噪声图像；

(2) 对进行反向去噪，将输入训练好的扩散模型预测噪声，得到；

(3) 更新：mask区域使用模型预测得到的，非mask区域使用前向加噪得到的 (已知和时间步t-1，便可直接计算得到t-1时刻的噪声图像)

$repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion$

(4) 新的再进入下一次的去噪过程。

Resample

如下图所示，只使用上述方法，模型能够生成相似的纹理，但是却不能保证语义上的正确性（没有理解应该生成一只完整的【狗】）。

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

究其原因，是因为在去噪的过程中加入了已知噪声的背景图像，但是这部分图像和模型生成的图像，只是简单的拼接到一起，两者没有产生任何交互，然后在下一次去噪的时候又是各去各的。

解决方法：Resample，就是在Pipeline中的步骤(3)之后，先跑几步前向加噪，然后再进行下一次去噪。改进效果如下图所示，额外加噪步数一般到10对性能的提升就饱和了。

repaint: inpainting using denoising diffusion probabilistic models,论文阅读,AIGC,stable diffusion

实验

实验从对mask的鲁棒性、生成结果的多样性、语义上的正确性三方面进行评价。在人脸和通用场景上验证，分别在CelebA-HQ和ImageNet数据集上进行。ImageNet使用现成的预训练模型，CelebA-HQ则重新训练了一个预训练模型。图片尺寸256，去噪步数为256，其中进行resampling的次数为10，每次resample前向加噪的jumpy size为10。不用针对mask做额外训练，直接使用DDPM训练好的图像生成模型（也可以加类别引导）。