新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

这篇具有很好参考价值的文章主要介绍了新一代图像合成模型:Stable Diffusion XL(SDXL)上线!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!,学习资料,人工智能,python,机器学习,深度学习,图像处理
几个使用Stable Diffusion XL 1.0生成的图像示例。

新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。

周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述生成新颖的图像,并生成比之前版本的Stable Diffusion更多细节和更高分辨率的图像。

就像稳定扩散1.4版一样,在去年8月份发布开源版本后引起轰动一样,任何具备适当硬件和技术知识的人都可以免费下载SDXL文件并在自己的机器上本地运行该模型。

本地操作意味着不需要支付访问SDXL模型的费用,几乎没有审查问题,未来业余爱好者可以微调权重文件(包含使模型功能的中性网络数据),以生成特定类型的图像。

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!,学习资料,人工智能,python,机器学习,深度学习,图像处理

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!,学习资料,人工智能,python,机器学习,深度学习,图像处理

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像。

升级引擎

与其他潜在扩散图像生成器一样,SDXL从随机噪声开始,并根据文本提示的指导“识别”噪声中的图像,并逐步完善图像。但根据Stability的说法,SDXL利用了一个“三倍大的UNet骨干”,比早期的Stable Diffusion模型具有更多的模型参数来完成其技巧。简而言之,这意味着SDXL架构会进行更多的处理来得到最终的图像。

为了生成图像,SDXL利用了一个“专家组合”架构,指导了一个潜在扩散过程。专家组合是指一种方法,其中一个初始单一模型被训练,然后分成专门为不同阶段的生成过程训练的专业模型,从而提高图像质量。在这种情况下,有一个基本的SDXL模型和一个可选的“精炼器”模型,可以在初始生成后运行,使图像看起来更好。

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!,学习资料,人工智能,python,机器学习,深度学习,图像处理
Table Diffusion XL 包含两个可组合的文本编码器。在 Xander Steenbrugge 的这个例子中,大象和章鱼无缝地组合成一个概念。

值得注意的是,SDXL还使用了两种不同的文本编码器来理解书面提示,从而帮助确定模型权重中编码的相关图像。用户可以为每个编码器提供不同的提示,从而产生新颖、高质量的概念组合。

然后,图像细节和尺寸方面有所改进。 虽然 Stable Diffusion 1.5 是在 512×512 像素图像上进行训练的(使之成为最佳的生成图像大小,但缺少小型特征的细节),但 Stable Diffusion 2.x 将其增加到了 768×768。 现在,Stability AI 建议使用 Stable Diffusion XL 生成 1024×1024 像素图像,比 SD 1.5 生成的大小相似的图片具有更高的细节。

本地控制,开放的理念

我们下载了Stable Diffusion XL 1.0模型,并在Windows机器上使用12GB VRAM的RTX 3060 GPU本地运行它。像ComfyUI和AUTOMATIC1111的Stable Diffusion Web UI这样的接口使得这个过程比去年Stable Diffusion首次推出时更加用户友好,但仍需要一些技术调整才能使其正常工作。如果您想尝试它,本教程可以给您指明方向。

总的来说,我们看到了具有梦幻般质量的图像生成,更多地倾向于商业AI图像生成器Midjourney的风格。正如上面提到的那样,SDXL通过提供更大的图像尺寸和更多的细节而闪耀。它似乎也会更忠实地遵循提示,尽管这是可以争议的。

其他值得注意的改进包括比以前的SD模型更好地渲染手部,并且它更擅长在图像中渲染文本。但是,与早期模型一样,生成高质量的图像仍然像拉一个老虎机的杆子一样,希望得到好的结果。专家们发现,仔细提示(以及大量的试错)是获得更好结果的关键。

新一代图像合成模型:Stable Diffusion XL(SDXL)上线!,学习资料,人工智能,python,机器学习,深度学习,图像处理
使用SDXL 1.0生成的“人手”AI图像

在消费级硬件上本地运行时,SDXL也存在缺点,例如比Stable Diffusion 1.x 和 2.x需要更高的内存要求和更慢的生成时间。(在我们的测试平台上,以20个步骤,欧拉祖先,CFG 8渲染一个1024x1024的图像,SD 1.5花费23.3秒,而SDXL 1.0花费了26.4秒。所得到的SDXL图像比SD 1.5图像少了一些重复元素。)

到目前为止,SD模型制作爱好者似乎对缺乏精细调校的LoRA感到遗憾,这些LoRA适用于SD 1.5风格的模型,可以提升美感(比如3D渲染风格)或某些场景的更详细的背景,但他们预计社区很快就会填补这些空白。

在稳定扩散中,社区是关键,因为该模型可以在本地运行而不需要监督。这对于利用该软件制作有趣艺术品的业余合成器群体来说是一种福利。但这也意味着该软件可以用来创建深度伪造、色情以及虚假信息。对于Stability AI来说,一些负面方面和开放性之间的权衡是值得的。

在本月早些时候发布在arXiv上的SDXL技术报告中,Stability抱怨称,“黑匣子”模型(如OpenAI的DALL-E和Midjourney)不允许用户下载权重,“使得评估这些模型的偏见和局限性在公正客观的方式下变得具有挑战性。”他们进一步声称,这些模型的封闭性“阻碍了可重复性,扼杀了创新,并防止社区在这些模型基础上进行进一步的科学和艺术进步。”

这种理想主义可能对那些感到被威胁的艺术家来说并没有多大的安慰,因为技术利用艺术家的作品碎片来训练像SDXL这样的模型,而未经允许,这不会解决版权诉讼的问题。但即便如此,尽管图像合成技术存在道德问题,它仍在朝着前方不断发展,这正是Stable Diffusion爱好者所希望的。文章来源地址https://www.toymoban.com/news/detail-665277.html

到了这里,关于新一代图像合成模型:Stable Diffusion XL(SDXL)上线!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Shikra:新一代多模态大语言模型,理解指向,说出坐标

    “ Shikra:解锁多模态语言模型参考对话的魔法” Shikra和用户的对话案例 在人类的日常交流中,经常会关注场景中的不同区域或物体,双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为 参考对话 (Referential Dialogue)💬; 如果多模态大语言

    2024年02月16日
    浏览(39)
  • 腾讯安全周斌:用模型对抗,构建新一代业务风控免疫力

    6月13日,腾讯安全联合IDC发布“数字安全免疫力”模型框架,主张将守护企业数据和数字业务两大资产作为企业安全建设的核心目标。腾讯安全副总裁周斌出席研讨论坛并发表主题演讲,他表示, 在新技术的趋势影响下,黑灰产的攻击行为会进一步模拟真人行为,传统基于过

    2024年02月09日
    浏览(36)
  • 一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

    人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”,OpenAI护城河似乎一下子荡然无存,整个大模型市场格局面临巨变。据媒体报道,在以往,中国大模型公司可以靠商业授权赚钱利润,随着Llama 2开始允许商用,中国大模型公司的这一优势现在也没有了。傅盛更是发出预警

    2024年02月11日
    浏览(42)
  • 智谱AI技术开放日:新一代基座大模型GLM-4及GLMs的发布

    2024年1月16日,智谱AI举行了一次重要的技术开放日,发布了新一代基座大模型GLM-4和定制化的大模型GLMs。此次发布标志着智谱AI在人工智能领域的新一轮突破,进一步提升了大模型的性能,并降低了使用门槛,使得更多的人能够参与到AI的广泛应用中来。 GLM-4模型是智谱AI全自

    2024年01月16日
    浏览(49)
  • 百度CTO王海峰:全栈AI技术加持,打造新一代大语言模型文心一言

    3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏和百度首席技术官王海峰出席,李彦宏展示了新一代知识增强大语言模型文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景中的综合能力,王海峰解读

    2024年02月09日
    浏览(66)
  • 1.5 新一代信息技术

    战略性新兴产业是以重大技术突破和重大发展需求为基础,对经济社会全局和长远发展具有重大引领带动作用,知识技术密集、物质资源消耗少、成长潜力大、综合效益好的产业。 依据《国务院关于加快培育和发展战略性新兴产业的决定》(国发(2010) 32号),七个战略性新兴产

    2023年04月08日
    浏览(59)
  • No.14新一代信息技术

    新一代信息技术产业包括:加快建设宽带、泛在、融合、安全的信息忘了基础设施,推动新一代移动通信、下一代互联网核心设备和智能终端的研发及产业化,加快推进三网融合,促进物联网、云计算的研发和示范应用。 大数据、云计算、互联网+、物联网、智慧城市等是新

    2024年02月09日
    浏览(44)
  • 新一代硬件安全:第一章-简介

    Chapter 1 Introduction 1.1 Fundamentals of Hardware Security In our modern age of omnipresent and highly interconnected information technology, cybersecurity becomes ever more challenged. For example, with the rise of the Internet of Things (IoT), most such equipment is connected to the internet in some way, often inscrutable to the regular customers. This f

    2024年02月12日
    浏览(53)
  • 云计算:新一代的技术革命

    云计算,作为21世纪的一项重要技术革命,已在全球范围内引发了深远的影响。它改变了我们存储和处理数据的方式,使得企业无需再建设和维护昂贵的本地服务器和数据中心。本文将深入探讨云计算的基本概念,类型,主要优点,以及它在未来可能的发展趋势。 云计算的基

    2024年02月12日
    浏览(49)
  • 新一代通信协议 - Socket.D

    一、简介 Socket.D 是一种二进制字节流传输协议,位于 OSI 模型中的5~6层,底层可以依赖 TCP、UDP、KCP、WebSocket 等传输层协议。由 Noear 开发。支持异步流处理。其开发背后的动机是用开销更少的协议取代超文本传输协议(HTTP),HTTP 协议对于许多任务(如微服务通信)来说效率低下。

    2024年01月20日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包