DiT:Transformers 与扩散模型强强联手

这篇具有很好参考价值的文章主要介绍了DiT:Transformers 与扩散模型强强联手。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

出品人:Towhee 技术团队 王翔宇、顾梦佳

扩散模型在图像生成领域有着难以撼动的地位,而其通常都选择了卷积 U-Net作为主干模型。那么在其他领域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢?基于这一想法,DiT(Diffusion Transformer) 利用transformer结构探索了一种新的扩散模型。它不仅继承了Transformer模型类的优秀扩展特性,性能还优于先前使用U-Net的模型。研究表明,扩散模型可以成功地用 transformer 替换 U-Net 主干。另外,它还证明了网络复杂性与样本质量之间存在很强的相关性。通过简单地扩展 DiT 并训练具有高容量主干的潜在扩散模型,DiT 模型可以在类条件 256 × 256 ImageNet 生成基准上实现 FID 2.27 的最新结果。

diffusion transformer,Towhee,深度学习,计算机视觉,人工智能

 

The Diffusion Transformer (DiT) architecture.

DiT 首先将空间表示输入通过第一层网络,将每个 patch 线性嵌入到输入中,以此将空间输入转换为一个数个 token 序列。然后,模型会将标准的基于 ViT 频率的位置嵌入应用于所有输入 token。接着,输入 token 由一系列 transformer 块处理。除了噪声图像输入之外,扩散模型有时还会处理额外的条件信息,例如噪声时间步长、类标签、自然语言等。DiT 探索了四种transformer 块变体,分别以不同方式处理条件输入 。

相关资料:

  • 代码地址:https://github.com/facebookresearch/DiT

  • 论文链接:Scalable Diffusion Models with Transformers

  • 更多资料:统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT文章来源地址https://www.toymoban.com/news/detail-831565.html

到了这里,关于DiT:Transformers 与扩散模型强强联手的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入了解 Transformers – Part 1: 介绍 Transformer 模型

    动动发财的小手,点个赞吧! 自从最新的Large Language Models(LLaM)发布以来,如OpenAI的GPT系列、开源模型Bloom或谷歌发布的LaMDA等,Transformer展现出了巨大的潜力,成为了深度学习的前沿架构楷模。 尽管已经有几篇文章介绍了 transformer 及其背后的数学原理,但在 本文 [1] 中,我

    2024年02月04日
    浏览(27)
  • 图像融合、Transformer、扩散模型

            在这篇博客中,主要是收集到一些图像融合框架中引入Transformer结构的文章,提供给大家参考学习,目前图像融合领域引入Transformer结构的文章比较少(我所看到的比较少,也看可能我看的比较少?),主要作用就是把它作为一种提取特征的方式,或者说更倾向于

    2024年02月05日
    浏览(29)
  • 番外篇Diffusion&Stable Diffusion扩散模型与稳定扩散模型

    本篇文章为阅读笔记,,主要内容围绕扩散模型和稳定扩散模型展开,介绍了kl loss、vae模型的损失函数以及变分下限作为扩展部分。扩散模型是一种生成模型,定义了一个逐渐扩散的马尔科夫链,逐渐项数据添加噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。稳

    2024年02月03日
    浏览(41)
  • 【译】稀疏混合专家模型的崛起: Switch Transformers

    原作:   塞缪尔·弗兰德 引言:为最强大的语言模型铺平道路的核心技术   使用 Dall-E 生成的图像 稀疏混合专家模型 (MoE) 已成为最新一代 LLMs 的核心技术,例如 OpenAI 的 GPT-4、Mistral AI 的 Mixtral-8x7 等。简而言之,稀疏MoE是一种非常强大的技术,因为理论上,它允许我们以

    2024年02月20日
    浏览(27)
  • 【AIGC入门一】Transformers 模型结构详解及代码解析

    Transformers 开启了NLP一个新时代,注意力模块目前各类大模型的重要结构。作为刚入门LLM的新手,怎么能不感受一下这个“变形金刚的魅力”呢? 目录 Transformers ——Attention is all You Need 背景介绍 模型结构 位置编码 代码实现: Attention Scaled Dot-product Attention Multi-head Attention Po

    2024年01月16日
    浏览(24)
  • 语音识别的进展:从隐马尔科夫模型到Transformers

    语音识别,也称为语音转文本,是一种将人类语音信号转换为文本的技术。它在人工智能领域具有重要的应用价值,例如语音助手、语音密码等。语音识别技术的发展历程可以分为以下几个阶段: 早期语音识别技术(1950年代至1970年代):这一阶段的语音识别技术主要基于隐

    2024年02月03日
    浏览(41)
  • 【预训练语言模型】 使用Transformers库进行BERT预训练

    基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 鉴于算力限制,选用了较小的英文数据集wikitext-2 目的 :跑通Mask语言模型的预训练流程 注意:在Kaggle上训练时,最好将datasets更新到最新版(再重启kernel),避免版本低报错 colab和kaggle已经预安装transformers库 加载数据

    2024年03月14日
    浏览(35)
  • 【新年新姿势第一弹】腾讯云EMR数仓建设教程发布——与尚硅谷强强联手带你全方位了解大数据组件

    几天把跨年搞的和人生分水岭似的 那么,2023年的你有什么不一样了吗? 是不是还和去年一样的造型?新姿势,学起来! 腾讯云开发者社区带着干货来了,腾讯云×尚硅谷大数据研究院强强联手,重磅推出新年第一弹: 腾讯云EMR数仓教程发布 腾讯云开发者社区“公开课”直

    2023年04月11日
    浏览(33)
  • 解码器 | 基于 Transformers 的编码器-解码器模型

    基于 transformer 的编码器-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由 Sebastion Ruder 撰写的这篇精彩 博文。此外,建议读者对 自注意力 (self-attention) 架构 有一个基本了解

    2024年02月08日
    浏览(40)
  • 使用 Transformers 为多语种语音识别任务微调 Whisper 模型

    本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR) 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,并提供了数据准备和微调的相关代码。如果你想要一个全部是代码,仅有少量解释的 Note

    2024年02月11日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包