【达摩院OpenVI】AIGC技术在图像超分上的创新应用

这篇具有很好参考价值的文章主要介绍了【达摩院OpenVI】AIGC技术在图像超分上的创新应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

团队模型、论文、博文、直播合集,点击此处浏览

一、背景

近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。

不过随着扩散模型DiffusionModel在理论和实践中的有效性得到越来越多的验证,在大数据、大模型的加持下,多模态学习发展如火如荼,促成了当今AIGC的火爆。同时以此为基础的视觉增强底层任务,也带来了一些突破性成果。今天重点给大家展示下,扩散模型在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!

二、方法

1.)经典算法Real-ESRGAN

先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN,如图1基本流程。

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图1: 来源Real-ESRGAN: Training Real-World Blind Super-Resolutionwith Pure Synthetic Data

生成网络是ESRGAN的生成网络,保持不变,首先用L1 loss,训练以PSRN为导向的网络,获得的模型称为Real-ESRNet,然后Real-ESRNet的网络参数进行网络初始化,同时使用 L1 loss、perceptual loss、 GAN loss损失函数,训练最终的网络Real-ESRGAN。

训练数据可以自己收集,使用退化方法,构建样本对。细节的生成能力依托GAN的作用,GAN的生成能力的发展进化已经经历了多年,在此不做赘述,但从实际应用中看,对于图片生成的真实性和多样性仍然有待提升。

2.)扩散模型简介

扩散模型(DiffusionModel)近几年开始受到广泛的关注,下面可以通俗地以denoising diffusion probabilistic models(DDPM)为基础的扩散模型的基本原理。

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图2: 来源Score-Based Generative Modeling through StochasticDifferential Equations

扩散模型的前向过程:不断给图片加噪声的过程。

扩散模型的逆向过程:一步步去除图片噪声的过程。

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图3:来源 Denoising Diffusion ProbabilisticModels

DiffusionMolde的训练大致可以概括为,通过构建一个Unet网络,预测每一步加噪声的强度,通过理论推导,可以得知这个训练只需要使用L2loss监督。训练完成后,就可以从高斯噪声开始,根据逆向过程的采样方式,恢复出清晰图像。

近两年,越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

3.)扩散模型在图像超分上的应用

下面重点看下在图像超分辨率方向上扩散模型的应用。

a.)SR3 (Image Super-Resolution via Iterative Refinement )

这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单,直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导,得到对应的高分辨率图像SR。

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图4: 来源Image Super-Resolution via Iterative Refinement

b.)LatentDiffusion(High-Resolution Image Synthesis with Latent DiffusionModels )

接下来重点介绍这个工作,LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间,减少了计算量,增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意:

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图5:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

LatentDiffusion也就是如今大火的StableDiffusion的基本方案,技术框架大致如下图所示:

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图6:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

基于latentdiffusion model的图像超分辨率方案,我们称做LDM-SR,和SR3的做法相似,这里直接将LR和Latenspace 噪声合并一起,输入到Unet,后面通过Decoder4倍上采样,生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值,并且视觉效果上更自然细腻。

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

图7:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

总体来说,基于扩散模型的超分辨率方案相比GAN,取得了长足的进步,在细节和纹理生成能力上上了一个大台阶。

4.)ours方法

达摩院开放视觉团队,在图像超分辨率技术上演进上,应用最新的Diffusion Model,搜集了大量几十万张高清图像数据集,训练了新的基于扩散模型的图像超分辨率模型,已经上线了,可以来试试效果吧。

体验地址:

生成式超分服务官网

达摩院视觉开放平台

下面给出几组,基于LDM-SR和Real-ESRGAN的效果对比,直观感受下吧!

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

原图

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

Real-ESRGANx4

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

LDM_SR x4

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

原图

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

Real-ESRGANx4

【达摩院OpenVI】AIGC技术在图像超分上的创新应用

LDM_SR x4

三、总结与展望

LDM是Stable V1的基本构成,最新的工作StableDiffusion V2 ,将多模态技术引入了图像超分辨率方案中。文本信息的引导,使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线,继续关注达摩院最新技术发布!文章来源地址https://www.toymoban.com/news/detail-487053.html

到了这里,关于【达摩院OpenVI】AIGC技术在图像超分上的创新应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列

    基于Transformer的方法在低级别视觉任务中,如图像超分辨率,表现出了令人印象深刻的性能。Transformer的潜力在现有网络中仍未得到充分发挥。为了激活更多的输入像素以实现更好的重建,提出了一种新的混合注意力Transformer(HAT)。它同时结合了通道注意力和基于窗口的自注意

    2024年02月11日
    浏览(50)
  • AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里

           最新 FaceChain支持多人合照写真、上百种单人写真风格,项目信息汇总:ModelScope 魔搭社区 。        github开源直达(觉得有趣的点个star哈。):GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin. 摘要 阿里巴巴最新自研的像素感知扩散

    2024年02月08日
    浏览(28)
  • 首届百度商业AI技术创新大赛启动 点燃AIGC革新“星火”

    随着生成式AI在全球范围的热议,AIGC前沿技术也在快速迭代,正如百度CEO李彦宏所说 “人工智能发生了方向性改变,从辨别式AI走向生成式AI,生成式AI会带来极大的效率提升” 。而这一领域的发展,将推动AI产品应用深化,极有可能在内容创作、客户服务等领域带来颠覆性变

    2024年02月09日
    浏览(39)
  • AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新

    AIGC | PC集群 | PC Farm | GPU服务器 生成式AI | Stable Diffusion | ChatGPT 2022 年 12 月,OpenAI 推出了 ChatGPT,这是一种高性能计算的大型语言生成模型。它的出现推动了人机对话技术的发展,并在网络上引起了极大的关注。目前,全球各大科技企业都在积极拥抱 AIGC,不断推出相关的技术

    2024年02月08日
    浏览(38)
  • 风口上的AIGC,技术人才动不动就年薪百万?

    自今年3月以来,随着ChatGPT应用持续走俏,AIGC领域抢人大战盛况空前。随之而来的便是“AI取代人类”“10亿打工人被革命”,AI的发展速度和步伐,超乎我们预期,也影响了很多行业。那说到底, 哪些行业可以搭上这趟AI快车?哪些人的工作会被AI“干掉”? 《2023第一季度

    2024年02月10日
    浏览(35)
  • AIGC 探究:人工智能生成内容的技术原理、广泛应用、创新应用、版权问题与未来挑战

    AIGC(Artificial Intelligence Generated Content)即人工智能生成内容, 其核心在于利用深度学习技术,尤其是基于神经网络的模型,来模拟人类创作过程 ,自主生成高质量的文本、图像、音频、视频等各类内容。神经网络是一种模仿人脑神经元结构与功能的计算模型,通过大量数据

    2024年04月27日
    浏览(33)
  • 百度商业AI 技术创新大赛赛道二:AIGC推理性能优化TOP10之经验分享

    朋友们,AIGC性能优化大赛已经结束了,看新闻很多队员已经完成了答辩和领奖环节,我根据内幕人了解到,比赛的最终代码及结果是不会分享出来的,因为办比赛的目的就是吸引最优秀的代码然后给公司节省自己开发的成本,相当于外包出去了,应该是不会公开的。抱着技术

    2024年02月11日
    浏览(66)
  • 图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)

    声明 : (1) 本文由博主 Minnie_Vautrin 原创整理,经本人大修后上传。 (2) 本文参考文献与资源众多,由于部分已经无法溯源,若有侵权请联系删改。 提高图像的分辨率; 丰富图像的细节纹理。 智能显示领域 :普通摄像头拍摄的图像分辨率一般偏低,不能满足高分辨率的视觉要

    2024年02月03日
    浏览(32)
  • 计算摄影——图像超分

            这一节主要介绍一下基于单张图的图像超分算法。图像超分,就是要从低分辨率的图像恢复为高分辨率的图像,它在日常的图像和视频存储与浏览中都有广泛的应用。         图像超分需要将低分辨率图片恢复为高分辨率图像,因此上采样结构在网络中是必不可

    2024年02月13日
    浏览(35)
  • 【Python&图像超分】Real-ESRGAN图像超分模型(超分辨率重建)详细安装和使用教程

            图像超分是一种图像处理技术,旨在 提高图像的分辨率 ,使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域,可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现,包括插值算法、深度学习等。其

    2024年02月04日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包