SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

这篇具有很好参考价值的文章主要介绍了SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节,主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。

目录

一.【AIGC简介——以文生图为例】

1.基于生成对抗网络的(GAN)模型

2.基于自回归(Autoregressive)模型

3.基于扩散(diffusion)模型

4.基于Transformers的扩散(diffusion)模型

5.表格总结文生图的发展历程

二.【Stable diffusion技术】

1.技术特点

2.实现机制

3.变分自编码器(VAE)

三.【SD实践】

【引用】



一.【AIGC简介——以文生图为例】

AlGC (不是ACGN)即 Al-Generated Content,人工智能生产内容,是利用Al来自动生产内容的生产方式。AIGC技术可以基于用户的输入或自动生成内容,无需或仅需很少的人工干预。这种技术的发展极大地推动了内容创作的自动化和个性化,为各种行业和应用提供了新的可能性。以图片生成任务为例,介绍其发展路线来理解AIGC技术的发展的进程,我们把文生图的发展历程发展成如下4个阶段:

1.基于生成对抗网络的(GAN)模型

生成对抗网络(GAN)是一种深度学习模型,由Goodfellow等人于2014年提出。GAN包含两个主要部分:生成器(Generator)和判别器(Discriminator)。生成器的目标是生成尽可能接近真实数据的假数据,而判别器的目标则是区分输入是真实数据还是生成器生成的假数据。这两部分在训练过程中相互对抗,不断优化,最终生成器能生成高质量的数据。GAN在图像生成、图像编辑、风格转换等方面有广泛应用。

GAN的优势是在一些窄分布(比如人脸)数据集上效果很好,采样速度快,方便嵌入到一些实时应用里面去。缺点是比较难训练、不稳定,因为具有潜在的不稳定训练和较少的生成多样性从而有Mode Collapse(模式崩塌)等问题。

2.基于自回归(Autoregressive)模型

自回归模型是一种序列数据生成模型,通过学习序列中前一个元素到下一个元素的映射来生成数据。这种模型在处理时间序列数据和语言模型中非常有效。自回归模型的一个关键特点是它们按顺序生成数据,每次生成一个数据点,依赖于之前生成的所有数据点。PixelRNN和PixelCNN是两个著名的基于自回归的图像生成模型,它们可以生成高质量的图像数据。因为每个code预测过程是有随机采样的,因此可以生成多样性比较高的不同图像。

3.基于扩散(diffusion)模型

扩散模型是一类近年来发展迅速的生成模型,它们通过模拟扩散过程(即从有序状态逐渐过渡到无序状态的过程)来生成数据。diffusion模型的灵感来源于非平衡态热力学,定义了一个马尔可夫链的扩散步骤,慢慢地向数据中添加随机噪声,然后学习逆向扩散过程,从噪声中构造所需的数据样本。在生成过程中,模型首先生成一个随机噪声,然后逐步将这个噪声转化为有意义的数据。这个过程类似于物理学中的扩散过程,但是方向相反。扩散模型在生成高质量图像和音频方面显示出了卓越的性能。扩散模型的数学推导可参见sora笔记(二):diffusion model推导 (yuque.com)

文生图 发展史,人工智能

4.基于Transformers的扩散(diffusion)模型

结合了Transformers架构和扩散模型的优点,这类模型利用Transformers强大的序列建模能力来改进扩散模型的生成过程。Transformers能够处理长距离依赖问题,使得基于Transformers的扩散模型在理解和生成复杂数据方面更为有效。这种模型特别适合于处理大规模数据集,并且能生成高质量的图像、文本等数据。

文生图 发展史,人工智能

5.表格总结文生图的发展历程

文生图的发展历程
特性 / 模型 生成对抗网络(GAN) 自回归模型 扩散模型 Transformers的扩散模型
优点 生成高质量、逼真图像 生成过程可控,稳定 能生成高质量图像;较强的理论基础 结合Transformers和扩散模型的优点;处理长距离依赖能力强
缺点 训练不稳定;模式坍塌 生成速度慢;计算成本高 训练过程复杂;计算资源要求高 极大的计算资源需求;模型复杂度高
训练参数量 中到大 非常大
适用范围 图像、视频、艺术作品生成 文本、图像像素级生成 图像、音频、视频生成 图像生成;文本到视频生成
图像生成模型举例 DCGAN, Pix2Pix, CycleGAN PixelRNN, PixelCNN DDPM (Denoising Diffusion Probabilistic Models) DALL·E, Imagen
流行时间 2014年后 2016年后 2020年后 2021年后

二.【Stable diffusion技术】

扩散(diffusion)模型是一类生成模型,通过模拟扩散过程(即将结构化数据转化为无结构噪声的过程)和其逆过程(从噪声重建数据的过程)来生成数据。在图像生成的上下文中,这意味着模型首先学习如何将真实图像“扩散”成随机噪声,然后学习如何逆转这一过程,从噪声中“去噪”以生成图像。

Stable diffusion是一种用于将文本转换为图像的深度学习模型。只需输入任何文本,它就可以生成看起来像真实照片的高质量、逼真的图像。该模型的最新版本是Stable Diffusion XL,它具有更大的UNet主干网络,可以生成更高质量的图像。独特之处在于它可以生成高质量的图像,并对输出进行高度控制。它可以使用各种描述性文本输入(例如样式、框架或预设)生成输出。除了创建图像之外,SD 还可以通过修复和扩展图像的大小(称为修复)来添加或替换部分图像。

1.技术特点

  • 高质量图像生成:Stable Diffusion能够生成高分辨率、逼真的图像,包括但不限于人物肖像、风景、艺术作品等。
  • 文本到图像生成:它支持通过文本描述来引导图像生成过程,使用户能够通过输入文本描述来生成符合要求的图像。
  • 编辑和修复能力:除了从头开始生成图像外,Stable Diffusion还可以用于编辑现有图像或修复图像中的缺陷。

2.实现机制

Stable Diffusion的实现依赖于几个关键步骤:

  • 扩散与去噪过程:Stable Diffusion的核心是一个基于扩散的生成过程,该过程包括多个步骤,每一步将图像从带有高噪声的状态逐步转换为清晰的图像。这一过程是通过学习逆扩散过程实现的,即如何从噪声状态逐步恢复到清晰图像的过程。

  • 条件生成的实现:在生成过程中,模型可以接收额外的信息(如文本描述)作为条件,这允许模型根据这些条件生成特定的图像。这是通过将条件编码融合到模型的去噪过程中来实现的,从而引导图像生成过程。

  • 训练数据的重要性:Stable Diffusion的训练依赖于大量的图像数据及其相关的文本描述。这些数据使模型能够学习到丰富的视觉特征和它们与文本描述之间的关系,从而在生成过程中利用这些关系来产生符合文本条件的图像。

3.变分自编码器(VAE)

文生图 发展史,人工智能

VAE是一种生成模型,它通过学习输入数据的潜在(latent)表示来生成新的数据实例。在Stable Diffusion中使用了VAE这种变分自编码器技术。VAE通常包括两部分:编码器解码器。编码器负责将输入数据映射到一个潜在空间,而解码器则从潜在空间中的表示生成输出数据。潜在空间是一个较小的、连续的多维空间,可以捕捉输入数据的关键特征。

在Stable Diffusion中,VAE的使用与传统意义上的生成噪声图像不同,它是在潜在空间中操作。在训练过程中,Stable Diffusion首先使用编码器将图像映射到潜在空间中的一个点,然后在这个潜在表示上添加噪声。这个带噪声的潜在表示随后被解码器用来生成输出图像。通过这种方式,模型学习如何从带有噪声的潜在表示中恢复出清晰的图像。整个过程强调了从高噪声状态到清晰图像状态的逆扩散过程,但这一切都发生在高效且信息丰富的潜在空间中。这种在潜在空间中操作的方法不仅提高了效率,而且由于潜在空间的连续性和更高的抽象级别,还增强了生成图像的质量和多样性。这就是为什么Stable Diffusion能够快速生成高质量、具有多样性的图像的原因之一。这有几个关键优点:

  1. 潜在空间的高效性:通过在潜在空间而不是像素空间中添加噪声,模型操作的维度大大减少。潜在空间的维度通常远小于图像的像素维度,这意味着计算成本更低,处理速度更快。
  2. 保留关键信息:在潜在空间中添加噪声可以在保留输入数据关键特征的同时引入变化,因为潜在空间的表示捕获了输入数据的重要信息。这使得生成的图像既新颖又具有高质量。
  3. 控制和灵活性:通过控制潜在空间中的噪声,可以更精细地控制生成过程和结果。这种方法提供了对生成内容的更高级别的控制,使得模型能够根据给定条件生成更符合要求的图像。

三.【SD实践】

使用魔塔社区案例,具体请参考:Sora技术解析与实战-01 | Mikey

from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
import cv2

pipe = pipeline(task=Tasks.text_to_image_synthesis, 
                model='AI-ModelScope/stable-diffusion-xl-base-1.0',
                use_safetensors=True,
                model_revision='v1.0.0')

prompt = "Beautiful and cute girl, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, art station Seraflur, blind box, super detail, 8k"
output = pipe({'text': prompt})
cv2.imwrite('SDXL.png', output['output_imgs'][0])

这段代码演示了如何使用ModelScope库来执行文本到图像合成任务,具体是利用Stable Diffusion XL模型根据给定的文本描述生成图像,并使用OpenCV将生成的图像保存到文件。

  1. 从`modelscope.utils.constant`导入`Tasks`,从`modelscope.pipelines`导入`pipeline`函数,该函数用于创建和配置特定任务的处理管道。导入`cv2`,即OpenCV库,用于图像处理和保存功能。
  2. 使用`pipeline`函数初始化一个管道,指定任务类型为`Tasks.text_to_image_synthesis`,表明这是一个文本到图像的合成任务。
  3. 指定模型为`'AI-ModelScope/stable-diffusion-xl-base-1.0'`,这是ModelScope平台上的一个预训练模型,基于Stable Diffusion技术。`use_safetensors=True`是指在处理数据时使用安全的张量操作,`model_revision='v1.0.0'`指定了模型的版本。
  4. 创建一个字符串`prompt`,包含用于生成图像的详细文本描述。这里描述了一个场景,包含年龄、服装、背景、颜色、光照条件等多个维度。
  5. 调用初始化好的管道`pipe`,并传入一个字典,其中`'text'`键对应于之前定义的文本提示`prompt`。管道处理该输入并返回生成的图像。
  6. 用`cv2.imwrite`函数,将生成的图像保存到文件`'SDXL.png'`。`output['output_imgs'][0]`从输出中取出第一张生成的图像

【引用】

Sora开源项目

【AI+X组队学习】Sora原理与技术实战:文生图片技术路径、原理与SD实战_哔哩哔哩_bilibili

魔搭社区

https://stablediffusionweb.com/

https://en.wikipedia.org/wiki/Variational_autoencoder文章来源地址https://www.toymoban.com/news/detail-842104.html

到了这里,关于SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 科普的理解 Sora 视频生成模型的核心技术

    科普的理解 Sora 视频生成模型的核心技术

    OpenAI 发布的人工智能文生视频大模型Sora在2024年2月15日亮相并引发热议,我们了解到 Sora 不仅完美继承了 DALL·E 3的卓越画质和遵循指令能力,更进一步利用 GPT 扩写技术,展现出超长生成时间(60s)、单视频多角度镜头以及理解物理世界三大突出优势。我们可以看到从 Runwa

    2024年04月12日
    浏览(9)
  • Sora六大优点全解析:OpenAI文本生成视频模型引领影像创作新潮流

    Sora六大优点全解析:OpenAI文本生成视频模型引领影像创作新潮流

    OpenAI,这个一直走在人工智能前沿的巨头,在不久前发布了他们的首个文本转视频模型——Sora!就是那个能将你的文字想象转化为栩栩如生视频的神器。现在,让我们一起揭开Sora的神秘面纱,看看第一部AI短剧离我们还有多远吧! 想象一下,你脑海中的一段故事、一个场景

    2024年03月21日
    浏览(40)
  • 视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!

    视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!

            随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里, 三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮 。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看

    2024年03月23日
    浏览(8)
  • OpenAI视频生成模型Sora的全面解析:从ViViT、扩散Transformer到NaViT、VideoPoet

    OpenAI视频生成模型Sora的全面解析:从ViViT、扩散Transformer到NaViT、VideoPoet

    真没想到,距离视频生成上一轮的集中爆发( 详见《视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》 )才过去三个月,没想OpenAI一出手,该领域又直接变天了 自打2.16日OpenAI发布sora以来( 其开发团队包括DALLE 3的4作 Tim Brooks 、DiT一作 Bill Peebles 等13人 ),不但把同

    2024年02月19日
    浏览(28)
  • AI创作教程之从 Youtube平台视频剪辑生成新闻文章 基于OpenAI Whisper、OpenAI GPT3 和 Stable Diffusion

    在这篇文章中,我想展示如何借助不同的软件工具从 Youtube 上发布的新闻剪辑中全自动生成包含文本和图像的新闻文章。使用当前用于处理媒体数据的 AI 模型,例如 OpenAI Whisper、OpenAI GPT3 和 Stable Diffusion。 OpenAI Whisper 是最近发布的模型,用于将音频数据转换为具有前所未有质

    2024年02月11日
    浏览(49)
  • AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

    AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略

    AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略 导读 :Sora 是OpenAI研发的一个可以 根据文字描述生成视频 的AI模型。它的主要特性、功能以及OpenAI在安全和应用方面的策略的核心要点如下所示: 核心功能 Sora可以

    2024年02月21日
    浏览(7)
  • 〔022〕Stable Diffusion 之 生成视频 篇

    如果想将视频换成另一种风格,或者想将视频中的人物替换掉,可以使用 mov2mov 插件 插件地址: https://github.com/Scholar01/sd-webui-mov2mov 由于该插件未收录在扩展列表中,所以需要从网址安装

    2024年02月09日
    浏览(11)
  • stable diffusion扩展Deforum生成视频

    stable diffusion扩展Deforum生成视频

    先要搭建sd webui环境, 然后进入界面 搜索Deforum,点击install等待安装即可,安装成功后重启webui,就能看到Deforum选项 此时,你可能会看到这个提示 ControlNet not found. Please install it :) 这是因为还需要另一个扩展 sd-webui-controlnet,方法同上 安装完重启webui红色提示就消失了 后面

    2024年02月11日
    浏览(9)
  • AI 绘画 | Stable Diffusion 视频生成重绘

    本篇文章教会你如何使用Stable Diffusion WEB UI,实现视频的人物,或是动物重绘,可以更换人物或者动物,也可以有真实变为二次元。 视频展示 左边是原视频,右边是重绘视频 原视频和Ai视频画面合并 这里需要用到Stable Diffusion WEB UI的扩展插件ebsynth_utility。此扩展插件需要搭配

    2024年02月04日
    浏览(14)
  • Stable Diffusion + EbSynth + ControlNet 解决生成视频闪烁

    Stable Diffusion + EbSynth + ControlNet 解决生成视频闪烁

    下载地址: 解压,配置环境变量 E:AIffmpegbin 检查是否安装成功 插件地址 https://github.com/s9roll7/ebsynth_utility 报错:ModuleNotFoundError: No module named \\\'extensions.ebsyynth_utility 将 目录 ebsyynth_utility-main 改为 ebsyynth_utility. 从官网下载,解压即可 Pip install transparent-background 该代码执行还需

    2024年02月16日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包