与Sora同架构的Stable Diffusion 3.0 震撼发布

这篇具有很好参考价值的文章主要介绍了与Sora同架构的Stable Diffusion 3.0 震撼发布。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。

这款由 Stability AI 倾力打造的文本变图模型,可是迄今为止最强大的“黑科技”!无论你想生成多主题的奇幻场景,还是高精度的风景写真,统统不在话下!

Stability AI 强调了该版本的几个亮点,其中首要的就是文字渲染能力,他们在其官网上一连给了三幅含有文字的图片,不仅文字清晰而且也没有任何拼写错误。

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

Stability AI 的首席执行官 Mostaque 也在 X(Twitter)上狂炫带有文字的图片:

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

Stable Diffusion 3.0 中改进的排版是 Stability AI 在新模型中构建的几个改进的结果。

Stability AI 的首席执行官 Mostaque 说:“这归功于 Transformer 架构和额外的文本编码器。现在可以实现完整的句子和一致的风格。”

另一个亮点是“多主题生成”:用一句话,就能描绘出用户脑中的万千世界!

Stability AI 举了一些例子,让 SD3 根据一句含有多个元素的 Prompt 画一幅画:

“一幅画作,描绘了一位宇航员骑着一头穿着芭蕾舞裙的猪,手里还撑着一把粉色雨伞。在猪旁边,一只戴着高顶礼帽的知更鸟静静伫立。画面一角,写着‘Stable Diffusion’。”

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

“一张照片,画面中有一个红色的球体放在一个蓝色的立方体上面。它们的后面有一个绿色的三角形,右边有一只狗,左边有一只猫。”

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

其中一个主题元素变化还能不影响其他元素:

,时长00:18

还有一个亮点就是“超高画质”,这简直是细节控的福音,每一张图片都堪称艺术品!例如下面这张变色龙特写照片:

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

而且生成的漫画和素描,质感也比之前的版本进步了一个台阶:

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

虽然 Stable Diffusion 3.0 最初被展示为文本转图像生成 AI 技术,但它将成为更广泛应用的基础。Stability AI 近几个月也在开发 3D 图像生成和视频生成功能。

Mostaque 说:“我们制作可以随时随地使用并适应任何需求的开放模型。这是一个跨尺寸的模型系列,将支持我们下一代视觉模型的发展,包括视频、3D 等。”

而且,Stable Video 也正式开放公测了,支持图生视频和文生视频。尽管人们都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测。需要强调的是,这是内测,不同于像 Stable Video 这样的公开测试。

从官网放出的例子来看,生成视频在画面稳定性、运动幅度、画面细节丢失上,效果跟 Sora 不相上下。

stable diffusion 3.0,stable diffusion,计算机视觉,人工智能,深度学习

有网友试玩了 Stable Video 后发出评论:“越来越期待 Sora 了”。该网友表示,“用自己的照片试用了一下 StableVideo,发现只有没有脸的图才能有比较好的生成结果,有脸的都崩了。”其他网友补充称,有脸的图调低 motion 值也可以得到相对正常的结果,但会很卡顿。

架构变革:采用类似 Sora 模型架构

在过去的一年中,Stability AI 一直在稳步迭代和发布多个图像模型,每个模型都显示出越来越高的复杂性和质量。7 月份发布的 SDXL 大幅改进了 Stable Diffusion 基础模型,现在该公司正寻求更进一步的发展。

新的 Stable Diffusion 3.0 模型旨在提供改进的图像质量和更好的性能,以从多主题提示生成图像。它还将提供比以前的 Stable Diffusion 模型更出色的排版,从而在生成的图像中实现更准确和一致的拼写。过去,排版一直是 Stable Diffusion 的一个弱点,包括 DALL-E 3、Ideogram 和 Midjourney 在最近的版本中也一直在努力解决这个问题。Stability AI 正在构建各种模型大小的 Stable Diffusion 3.0,模型可选择的参数范围在 800M 到 8B 。

Stable Diffusion 3.0 不仅仅是 Stability AI 已经发布的模型的新版本,它实际上基于一种全新的架构。

Emad Mostaque 表示,Stable Diffusion 3 是原始 Stable Diffusion 的正统续作。它采用了类似于 OpenAI 近期发布的 Sora 模型的 Diffusion Transformer 新架构,代表了该领域的最新技术突破。

“Diffusion Transformer”技术在 2022 年首次提出,并在 2023 年进行了改进,现在已经实现了可扩展性。此外,Stable Diffusion 3.0 还采用了“流匹配”技术,这也是另一项改进质量且不会增加太多额外负担的新技术。

Stability AI 一直在尝试多种图像生成方法。本月早些时候,该公司发布了 Stable Cascade 的预览版,它使用 Würstchen 架构来提高性能和准确性。Stable Diffusion 3.0 采取了不同的方法,使用了 Diffusion Transformer。

Mostaque 强调说:“Stable Diffusion 以前没有 Transformer。”

Transformer 是许多生成 AI 革命的基础,被广泛用作文本生成模型的基础。图像生成主要在 Diffusion 模型领域。详细介绍 Diffusion Transformer (DiT) 的研究论文解释说,它是一种新的 Diffusion 模型架构,它用操作潜在图像块的 Transformer 取代了常用的 U-Net 主干。DiT 方法可以更有效地利用计算资源,并且可以超越其他形式的 Diffusion 图像生成。

Stable Diffusion 的另一个重大创新是流匹配 (flow matching)。流匹配的研究论文解释了它是一种训练 Continuous Normalizing Flows (CNFs) 以模拟复杂数据分布的新方法。根据研究人员的说法,使用 Conditional Flow Matching (CFM) 和 optimal transport paths(最佳传输路径),与 diffusion paths 相比,可以实现更快的 training、更有效的采样和更好的性能。

参考链接:

https://venturebeat.com/ai/stable-diffusion-3-0-debuts-new-diffusion-transformation-architecture-to-reinvent-text-to-image-gen-ai/

https://twitter.com/EMostaque

https://stability.ai/news/stable-diffusion-3文章来源地址https://www.toymoban.com/news/detail-838032.html

到了这里,关于与Sora同架构的Stable Diffusion 3.0 震撼发布的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!

            随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里, 三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮 。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看

    2024年03月23日
    浏览(48)
  • 重磅!Stable Diffusion 3 发布,AI模型百花争鸣!

    击上方关注 “ 终端研发部 ” 最近AI大变天! 刚火了Sora,又火了Gemma,这不stable diffusion又来了!大语言模型成了龙争虎斗的年代已开启~ Stable Diffusion 3到底是什么? 用官方的描述,3.0版本核心功能是多主题提示、图像质量和拼写能力。 比如给出提示词:厨房的桌子上放着一

    2024年03月13日
    浏览(57)
  • Web Stable Diffusion教程现已在GitHub上发布

    大多数现有的稳定扩散演示都依赖于后台服务器来运行图像生成。这意味着您需要托管自己的GPU服务器来支持这些工作负载。很难使演示在Web浏览器上运行,因为稳定扩散通常需要大量的计算和内存消耗。Web Stable Diffusion直接将稳定扩散模型放在您的浏览器中,并通过用户笔

    2024年02月15日
    浏览(30)
  • Stable Video Diffusion(SVD)视频生成模型发布 1.1版

    前言 近日,随着人工智能技术的飞速发展,图像到视频生成技术也迎来了新的突破。特别是Stable Video Diffusion(SVD)模型的最新版本1.1,它为我们带来了从静态图像生成动态视频的全新能力。本文将深入解析SVD 1.1版本的核心特性、性能提升以及其在视频生成领域的应用前景。

    2024年03月08日
    浏览(78)
  • Stable Diffusion AnimateDiff-最火文本生成视频插件V3发布

    AnimateDiff采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。简言之,AnimateDiff通过训练大量短视频来优化图像之间的过渡,确保视频帧的流畅性。 与传统的SD模型训练方式不同,AnimateDiff通过

    2024年04月26日
    浏览(41)
  • Stable diffusion的架构解读(本博客还是以unet架构为主)

    博客只是简单的记录一下自己学的,基于自己的一些情况,所以简单了一些只是将来忘记,用来回顾用。 论文的大体框架 stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的,text是唯一的输入 unet结构位于 unet会接受prompt特征、latent特征、和t时间步特征,最后生

    2024年02月06日
    浏览(33)
  • Stable Diffusion架构的3D分子生成模型 GeoLDM - 测评与代码解析

    之前,向大家介绍过3D分子生成模型 GeoLDM。 GeoLDM按照Stable Diffusion架构,将3D分子生成的扩散过程运行在隐空间内,优化了基于扩散模型的分子生成。可能是打开Drug-AIGC的关键之作。让精确控制分子生成有了希望。 详见:分子生成领域的stable diffusion - GEOLDM-CSDN博客) 作者提供

    2024年02月03日
    浏览(46)
  • 智源社区AI周刊No.107:英伟达推出Magic3D;Stable Diffusion2.0发布

    汇聚每周AI热点,不错过重要资讯!欢迎 扫码 ,关注并订阅智源社区AI周刊。 英伟达推出Magic3D,性能超过谷歌DreamFusion 近一段时间,让AI生成3D点云成为业界研究的重点。谷歌曾在9月提出DreamFusion,引起广泛关注。近日,英伟达提出了Magic3D,可以从文字描述中生成3D的AI模型

    2024年02月13日
    浏览(53)
  • 【Stable Diffusion】Stable Diffusion各类模型描述

    Stable Diffusion 是一种新型的生成模型,它可以用于生成高质量的图像、文本和音频等多种形式的数据。目前已经出现了许多基于 Stable Diffusion 模型的变种,下面简单介绍其中几种比较流行的模型: 模型链接:https://huggingface.co/stabilityai DDIM 是 Stable Diffusion 的第一个应用,它采用

    2024年02月16日
    浏览(52)
  • Stable Diffusion 安装教程(详细)_stable diffusion安装

    引言 如果你只想简单尝试一下,仅仅图一乐,可以通过网页在线体验Stable Diffusion,可以今日免费的网站进行使用(https://stablediffusionweb.com/),只是功能不如本地的多。 本地部署安装Stable Diffusion有很多种方式,例如安装启动器,安装传统的Web Ui界面等等,它们的步骤看似繁

    2024年02月19日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包