Stable Diffusion图生图-Toy模板网

这篇具有很好参考价值的文章主要介绍了Stable Diffusion图生图。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我们都知道，模型在运算时是根据我们提供的提示内容来确定绘图方向，如果没有提示信息，模型只能根据此前的学习经验来自行发挥。在之前的文生图篇，我们介绍了如何通过提示词来控制图像内容，但想要实现准确的出图效果，只靠简短的提示词是很难满足实际需求的。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

AI 绘画的随机性导致我们使用大段的提示词来精确描述我们想要的画面内容，但毕竟文字能承载的信息量有限，即使我们写了一大段咒语，模型也未必能准确理解，不排除有时候还会出现前后语义冲突的情况。其实这个过程就像甲方给我们明确设计方向，除了重复沟通想要的画面内容外，有没有什么比口述更高效的沟通方式呢？这个时候，有经验的甲方会先去找几张目标风格的竞品图，让我们直接按照参考图的感觉走。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

「感觉」这个词听起来似乎虚无缥缈，但在 AI 绘画领域是有实际道理的，因为图像能承载的信息要比文字多得多。以上面这张图为例，如果用提示词描述，可能写上几百字都难以向模型解释清楚画面的内容，但图生图不同，模型会自动从参考图上提取像素信息，并将其作为特征向量准确映射到最终的绘图结果上，通过这样的方式能最大程度还原参考图中的提示信息，实现更稳定准确的出图效果。

因此，传统意义上的图生图就是将提示词和参考图中的图像信息进行综合考虑并进行绘图的过程。

2. 真正强大的图像重绘

当然，如果仅仅是喂图功能，Stable Diffusion 的图生图板块并不值得我们单独花一篇文章来讲解，它的真正价值在于提供了丰富的操作工具将图像可控性提升到了新的层次。

我们先来回顾下平时使用文生图进行 AI 绘画的过程：编写提示词进行绘图，然后根据出图结果再不断优化提示词和各类参数进行抽奖，最终得到一张比较满意的图片。而图生图则是直接根据现有图片进行优化调整，因此图生图的操作过程可以简单理解成省去了前期文生图的抽奖过程，直接在现有图像约束的基础上进行的二次重绘。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

需要注意的是，配合参考图进行图生图的过程是需要将参考图先逆向推导为潜空间的数据，再和提示词综合考虑绘制成图像。因此相比没有逆向推导过程的文生图，图生图的绘制会占用更多的系统资源，根据这个原理，我们也就能理解使用参考图的尺寸越大，在逆向推导的过程中消耗的资源也会越多。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

在 Stable Diffusion 中，我们可以通过蒙版和局部重绘等功能来控制只对图像特定部分的区域进行重绘，并设置各类参数来控制重绘的效果。此外通过选择不同的绘图模型和调整图像尺寸，我们也能甚至还能实现画风转换、图像无损放大等更多玩法。相较于其他 AI 绘画工具，Stable Diffusion 中的图生图并非单纯的喂参考图，而是可以在现有图片的基础上通过人工干预来实现更加稳定可控的图像重绘。

二、图生图工具解析

在 WebUI 的功能导航栏中选择图生图模块，我们可以看到它的页面布局和文生图基本类似，同样有提示词输入框、操作按钮和参数设置项，不同的是这里多了提示词反推、支持上传图片的二级功能模块和对应的参数设置项。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

1. 提示词反推

先来看提示词反推的功能：即根据提供的图片自动反推出匹配的文本关键词，也就是我们俗称的图生文功能。WebUI 这里提供了 Clip 反推和 DeepBooru 反推 2 种反推操作，其区别在于：

Clip 反推：推导出的文本倾向于自然语言的描述方式，即完整的描述短句，该功能的特点是可以描述出画面中对象间的关系
DeepBooru 反推：推导结果更多的是单词或短句，比较类似我们平时书写提示词的方式，该功能更倾向于描述对象特征

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

不难看出，通过 Clip 和 DeepBooru 反推的提示词中包含不少错误标签，需要人工进行二次筛选。其实，WebUI 在图生图模块内置提示词反推是为了在上传图片后可直接获取相应的参考关键词，以便后面更好的通过提示词来控制重绘图像内容。但实际上我们平时反推提示词时更常使用的是秋叶整合包中自带的 Tagger 插件，该插件除了生成的提示词准确度和稳定更高，还提供了关键词分析和排名展示，属于 Stable Diffusion 的必备插件之一。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

在 Stable Diffusion 中有非常多类似的开源插件可以有效提升绘图效率，但不属于本篇文章重点，这里就不过多介绍了。

2. 二级工具栏概览

在图生图模块中为我们内置了许多二级工具栏，很多朋友看到这样可能会担心学习起来很复杂。但其实这里每款工具其实都是在上一个工具基础上进行的衍生，比如涂鸦和局部重绘是在原生图生图基础上增加了手绘和蒙版，而涂鸦重绘又是这 2 款工具的结合。系统来看，所有的二级工具都是围绕图像重绘、手绘涂鸦和蒙版选区这 3 个基础功能所进行的重组，而 WebUI 作者是为了方便我们使用将实际操作场景进行了细分。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

上图中整理了不同工具的简介和差异对比，下面针对每款工具和相关参数为大家进行详细介绍。

3. 图生图工具

这部分的操作和文生图基本相同，区别在于支持额外上传参考图并增加了几项图生图专属的参数。下面介绍几项影响图生图效果的重要参数，这也是所有二级模块都需要用到的参数，其中和文生图模块中相同的参数这里就不再赘述了，大家可以回顾下「文生图篇」的相关内容。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

①重绘幅度

重绘幅度可以说是图生图中最重要的参数，它的功能有点类似 Midjourney 中的 iw 参数。前面介绍图生图的原理是在原图基础上绘制一张新的图片，而重绘幅度就是用来控制在原图基础上重绘的发散性程度，数值越高，说明模型重绘过程中更加自由，绘制结果和原参考图的差异性越大，生成的图像也就更倾向于模型自身的绘图风格。

可以看到当重绘幅度过高时，绘制的图像内容和原图基本就很难进行关联了，因此我们通常将重绘幅度的数值控制在 0.4～0.8 之间，这样既能维持参考图的控图效果，又能保证重绘后不会发生太强烈的变化。但从重绘幅度角度来看图像可操作的范围并不大，该参数的更多场景是配合其他功能项进行灵活调节，在下面的内容中我会配合各类工具进行详细介绍。

②重绘尺寸

故名思义，该参数用于设置重绘后的图像尺寸，可以分为直接设置图像宽高和设置图像缩放倍数 2 种调节方式。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

默认情况下重绘尺寸会自动带入当前参考图的宽高数值，而当我们拖动尺寸滑块时，可以直观的在参考图上预览重绘后的图像范围。

③缩放模式

很多时候我们的参考图和重绘后的图片尺寸并不一致，而缩放模式就是用来选择采用何种变形方式来处理图像。这里虽然提供了 4 个按钮，但是可以分为 2 类场景来使用。一种是图像长宽比发生变化时使用，这里提供了 3 种我们常见的处理方式：拉伸、裁剪、填充（由于汉译插件不同，在名称上存在一定差异）。另一种是图像长宽比例不变时使用，多数情况下用于图像等比放大。

换句话说，如果重绘后的图像尺寸和原图完全一样，这几种缩放模式使用起来并没有区别。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

下面我们来挨个介绍不同缩放模式的效果差异。首先是拉伸模式（仅调整大小），它的效果是将原图直接变形拉伸至新设定的尺寸。在下面的图中可以看到，在重绘幅度参数设置为 0 时，图像被直接变形拉伸为正方形，而随着提升重绘幅度，变形效果逐渐得到缓解，但同样也会导致和原图差异过大。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

第二种裁剪模式（即裁剪后缩放）是根据新设定图像的长宽比，对原参考图的内容进行裁切。重绘后尺寸由矩形变为正方形，上下部分内容被裁切，这里的重绘幅度参数不会对图像的长宽比例产生影响。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

第三个填充模式（缩放后填充空白）的效果根据新设定的长宽比例，将原图缺失的部分进行绘制填充。比如当图像从原图的 512*768 重绘为 768*768 时，下图的效果就是向左右填充了新的背景内容，且随着重绘幅度数值越大，填充部分和原图的融合效果越好。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

最后一种缩放模式叫调整大小（潜空间放大），有的地方也叫直接缩放，该功能主要用于对图像进行等比放大，实现“小图转大图”的效果。当然如果重绘尺寸比例和原图比例不一致，则默认会采用拉伸的方式进行处理，但由于是反馈到潜空间中进行运算，因此图像出现了模糊变形的效果。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

相较于单纯增加分辨率的放大做法，图生图中使用调整大小模式有重绘幅度参数可供调节，少量的重绘幅度可以为原图增加更多细节。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

当然添加重绘幅度的弊端是不可避免的会导致图像发生改变，想要实现更好的效果还有更多定制插件可以实现低显存绘制高清大图，此处先按下不表。

对于调整大小功能的潜空间放大算法，我们可以在设置-放大-图生图放大算法中进行切换，选择之后记得保存设置并重启 webUI 界面。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

综合使用场景来看，除非是需要对图像进行画布拓展，否则多数情况下还是建议先将参考图裁剪到目标比例再导入图生图中使用，这样的出图效果会更加可控。

下面我们再来看看图生图模块下的其他二级工具及参数，由于汉化差异，二级工具的名称可能不同，比如涂鸦重绘有的翻译插件下也被称作有色蒙版重绘。

4. 涂鸦工具

再来看看第二个涂鸦工具，涂鸦工具的参数项和图生图完全相同，唯一区别是上传图像后右上角多了画笔工具，支持我们对图像进行涂抹。涂鸦工具相当于增加了我们传统的手绘过程，在图片上涂抹色块后再进行全图范围的图生图，同时配合提示词可以实现更加多样的重绘效果。

其中画笔支持调整调整笔触大小和切换颜色，自带的吸色工具也可以进行全屏幕范围内的取色。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

在这几个操作工具中，返回上一步的按钮目前还存在 bug，有时候并不会逐步撤回而是将整个涂鸦笔触全部清空。并且由于不知名原因，上传的图片有时候会出现报错或失效等情况，需要删除当前图片后重新上传才能。

涂鸦工具的操作很简单，使用画笔在图像上涂抹颜色后点击生成，Stable Diffusion 会将手绘后的图像进行整体重绘，同时控制重绘幅度和增加描述关键词可以实现非常神奇的融图效果。在下图中可以看到女孩的衣服会根据涂鸦部分重绘成紫色的运动服，当重绘幅度设置为 0.5 左右时达到比较自然的融合效果。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

需要注意的是通过涂鸦工具来重绘图像时，由于重绘幅度的影响，画面中未被涂鸦的部分也会发生变化，因此涂鸦工具是针对画面整体进行重绘。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

由于鼠标涂鸦的绘制效果不够准确，而且涂抹的颜色不支持透明度等细节调整，因此涂鸦工具平时使用并不多，一般都是导入 PS 中进行细致的绘制操作，这里就不做过多赘述了。

5. 局部重绘工具

再来看看局部重绘工具，在前几天，Midjourney 终于上架了大家期待已久的局部重绘功能，应该算得上是 Midjourney 目前在控图方向上最大的一次迈步，而 Stable Diffusion 在这块算得上是深耕已久。简单来说，局部重绘就是在图像中设定一块区域，在图生图过程中只针对该区域部分进行重绘，而其他部分保持不变，从而实现精准控制改变图像特定部分的效果。该功能通常用于对画面大部分内容都基本满意，但需要调整部分细节元素的场景。

在下图中可以看到，局部重绘同样是使用画笔进行涂抹，但这里涂抹的颜色只有黑色，因为被涂抹区域表示的是蒙版，而不是实际的颜色色块。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

下面我们来看看局部重绘的各项参数。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

蒙版边缘模糊度：该参数用于设置重绘区域和原图的融合程度，效果可以简单理解为 PS 中的选区羽化。边缘模糊度太小会导致边缘衔接过于生硬，而数值太高会削弱蒙版的区域限制效果，导致蒙版不精确或直接失效。默认情况下数值是 4，我们可以根据图像的融合效果来进行适度调节。

为方便对比蒙版效果，在下图的案例中我选择重绘黑色蒙版之外的区域，可以发现当边缘模糊度为 0 时，蒙版边缘非常生硬，而随着数值变大，重绘区域和原图的融合过渡也变得更加自然。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

蒙版模式：「重绘蒙版区域」表示重绘涂抹过的蒙版区域，「重绘非蒙版区域」表示涂抹区域不变，而是重绘画面中的其他区域。该参数类似 PS 中的选区反转，在实际使用时根据重绘区域大小自由选择是涂抹需要重绘的部分还是剩余的背景部分。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

蒙版区域内容处理：该选项用于设置重绘时的图像处理方式，这里提供了 4 个选项：填充、原图、潜空间噪声、空白潜空间，具体的效果可以看下图，相较之下潜空间噪声会比其他几项产生出更多变化，而原图的效果比较稳定。

该参数对绘图结果的影响不太稳定，一般情况下保持默认的「原图」即可。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

重绘区域：指的是重绘过程中用于参考的图像范围。在下图中可以清楚的看到，当重绘区域设置为「仅蒙版区域」时，绘制的部分只有涂抹的蒙版部分区域的元素，相当于把涂抹区域切割下来单独进行重绘，该选项下会打断选区和参考图其他部分的联系，最终画面的融合效果可能会下降。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

仅蒙版区域下边缘预留像素：该参数只在重绘区域选择了「仅蒙版区域」时生效，用于控制切割下来重绘部分向外扩展的范围大小。观察下面重绘过程的进度图可以发现，边缘预留像素的数值越大，则绘制过程中会向四周裁剪更多的内容进行整体重绘。

在默认情况下局部重绘会参考全图进行绘制，并且被涂抹的范围并不代表都会发生变化，所以通常我们会在目标区域基础上对外再涂抹一部分区域，以保证重绘后更好的融合效果，而提高边缘预留像素也是同样的原理。

打工人副业变现秘籍,某多/某手变现底层引警stable diffusion图生图,AI绘画 | Stable Diffusion,stable diffusion,人工智能

总结来看，由于手涂蒙版的方式比较方便也很自由，因此局部重绘被广泛用于图像的局部调整，比如常见的脸部修复、手部修复等。

到此Stable Diffusion图生图介绍完成。文章来源地址https://www.toymoban.com/news/detail-764454.html

到了这里，关于Stable Diffusion图生图的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Stable Diffusion图生图

二、图生图工具解析

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2