条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

这篇具有很好参考价值的文章主要介绍了条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  在之前的扩散模型介绍中,入门-1,主要考虑的是无条件下的图片生成,涉及到的问题主要是如何保证图片的质量,这个过程需要考虑很多的参数项,参数设定的不同会对图片的质量和多样性产生很大的影响。
  能够让diffusion模型在工业界中大放异彩的模型,比如条件控制模型,是在diffusion模型的基础上改进起来的
我个人感觉这篇文章还挺有趣的
  一般在想到控制生成的情况下,会考虑在原始的训练阶段中就加入控制语句,但这需要从头开始训练一个大模型。
  另一种情况是在训练后,考虑加入控制语句,但再训练后怎么使用提示的方式达到控制生成的目的,效果很难改善。
这篇文章似乎是结合两种情况的折中方案,在保留大模型参数的情况下,还能够通过简单的微调达到模型更新的目的,进而实现条件控制生成。

1.简介

  先猜一下,为神魔会有这种方案出来?我想是因为end-2-end的调优是比较简单快速,而且效果相较而言还能够接受的一种,但是,在LLM上的微调,参数规模太大了,很难有效的调整,又能够适应小游玩家,又能提高效率,在LLM中加入条件控制语句就成了一种方案。

  文中还解释了一种场景,是在比较细节的调整中,比如人的姿势,如果使用prompt的方式的话,很难调整效果达到一个可接受的情况。

2.模型方法

在LLM的基础上,加入新的参数作为condition部分的参数,作为模型微调过程中更新的参数,以支持模型能够学习得到条件控制语句下的结果。
  在操作上,将LLM的整个架构分为了几个模块,按照参数是否更新,将LLM的参数分为lock 和 unlock的两部分,对于unloack的部分,是在copy这一部分参数的条件下,来训练的。
lock 部分的参数是为了让模型能够保持大模型的能力,毕竟大模型是在上亿图片下的参数学习。train部分的参数是为了使模型学习得到条件下的控制结果。

模型简图:
  当ControlNet应用于某些神经网络块时,在任何优化之前,它不会对深度神经特征造成任何影响。当在反向传播时,尽管convolution的参数是0,但是y的参数不是0,所以,反向传导时,参数还是有更新的。权重会通过反向梯度下降,变为非0值。
条件生成模型,论文记录,人工智能,机器学习,深度学习

2.1 相关模型方法上的其他研究

怎么在训练期间得到更好的初始化参数?——缩放扩散模型中几个卷积层的初始权重,以提高训练效果。还有一些是直接采用zero weights的方式作为卷积层的权重项。

其余的扩散模型有哪些在diffusion模型提出来后,对他的一些改进,比如Denoising Diffusion Probabilistic Model (DDPM) [17],Disco Diffusion,Denoising Diffusion Implicit Model (DDIM)等等模型。
这些是对于扩散模型的扩展。
而对于其他的生成模型,还有VAE、GAN等等这些,它的历史发展逻辑如何??

2.2 control net在LLM上的应用实践

在下图中是LLM的decoder的block部分加入了control net模型。
在controlnet中使用了四个不同channel下的conv,将featuremap做了匹配对齐。
每个block可能由3个相同的size的block组成(X3)

条件生成模型,论文记录,人工智能,机器学习,深度学习

3.实验效果

各种不同条件的数据集训练几个control net,例如,Canny边缘、Hough线、用户涂鸦、人类关键点、分割图、形状法线、深度等等。

在条件控制语中,考虑了no prompt,即空字符串的形式,
还有一种是default prompt,使用的是“a professional, detailed, high-quality image”
另外还有automatic prompts。
和user prompts 几种形式。

4.总结与反思

controlnet的参数控制和另一种模型蒸馏好像有点关系,也是在模型中嫁梯子,达到最终的目标。
架梯子好像有点意思啊,可以多想想。文章来源地址https://www.toymoban.com/news/detail-564362.html

到了这里,关于条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 扩散模型实战(十):Stable Diffusion文本条件生成图像大模型

     扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探 扩散模型实战(七):Diffusers蝴蝶图像生成实

    2024年02月03日
    浏览(42)
  • AIGC实战——条件生成对抗网络(Conditional Generative Adversarial Net, CGAN)

    我们已经学习了如何构建生成对抗网络 (Generative Adversarial Net, GAN) 以从给定的训练集中生成逼真图像。但是,我们无法控制想要生成的图像类型,例如控制模型生成男性或女性的面部图像;我们可以从潜空间中随机采样一个点,但是不能预知给定潜变量能够生成什么样的图像

    2024年02月04日
    浏览(33)
  • 一文速览扩散模型优化过程:从DDPM到条件生成模型Stable Diffusion

    目前AIGC可以说是整个人工智能领域的当红炸子鸡,而Diffusion Model(扩散模型)正是目前各项图像生成式应用的主要架构。本人并不主要研究图像生成领域,不过由于项目需要也对其进行过一些调研,故写下这篇文章进行分享与记录。本文会从最简单的扩散模型开始讲起,然后

    2024年02月09日
    浏览(44)
  • 深入理解机器学习——概率图模型(Probabilistic Graphical Model):条件随机场(Conditional Random Field,CRF)

    分类目录:《深入理解机器学习》总目录 条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型,在《概率图模型(Probabilistic Graphical Model):隐马尔可夫模型(Hidden Markov Model,HMM)》中提到过,生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布

    2024年02月15日
    浏览(31)
  • Diffusion Models可控视频生成Control-A-Video:论文和源码解读

    Diffusion Models专栏文章汇总:入门与实战 前言: Diffusion视频生成的时间连贯性问题是可控视频生成问题最大的挑战。Control-A-Video提出的时空一致性建模法、残差噪声初始化法和首帧定型法能有效解决这一问题,非常值得我们借鉴。博主详细解读论文和代码,并给出一些自己的

    2024年02月06日
    浏览(29)
  • AI 与控制:神经网络模型用于模型预测控制(Model Predictive Control)

    最优控制理论处理的问题通常是找到一个满足容许控制的 u*,把它作用于系统(被控对象)ẋ(t)=f(x(t),u(t),t) 从而可以得到系统的状态轨迹 x(t),使得目标函数最优。对于轨迹跟踪问题,那目标函数就是使得这个轨迹在一定的时间范围[t0tf]内与我们期望的轨迹(目标)x*(t) 越近

    2024年02月04日
    浏览(35)
  • 【Spring Boot 源码学习】@Conditional 条件注解

    《Spring Boot 源码学习系列》 前面的博文,Huazie 带大家从 Spring Boot 源码深入了解了自动配置类的读取和筛选的过程,然后又详解了 OnClassCondition 、 OnBeanCondition 、 OnWebApplicationCondition 这三个自动配置过滤匹配子类实现。 在上述的博文中,我们其实已经初步涉及到了像 @Conditi

    2024年02月07日
    浏览(30)
  • 机器人模型预测控制MPC(model predictive control)

    当前控制动作是在每一个采样瞬间通过求解一个有限时域开环最优控制问题而获得。过程的当前状态作为最优控制问题的初始状态,解得的最优控制序列只实施第一个控制作用。这是它与那些使用预先计算控制律的算法的最大不同。本质上模型预测控制求解一个开环最优控制

    2024年02月07日
    浏览(32)
  • CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

    注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图

    2024年02月13日
    浏览(32)
  • 【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

    SparseCtrl:在文本到视频扩散模型中添加稀疏控制。 (AnimateDiff V3,官方版AnimateDiff+ControlNet,效果很丝滑) code:GitHub - guoyww/AnimateDiff: Official implementation of AnimateDiff. paper:https://arxiv.org/abs/2311.16933 目录 文章 1 介绍 2 背景 3 方法 4 实验 5 结论 复现 1 问题 2 结果 1 介绍 动机:不断

    2024年02月03日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包