论文笔记:ViTGAN: Training GANs with Vision Transformers

这篇具有很好参考价值的文章主要介绍了论文笔记:ViTGAN: Training GANs with Vision Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2021

1 intro

  • 论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务
    • 即不用CNN,而使用ViT来完成图像生成任务
  • 将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定
    • ——>引入了新的正则化技术来训练带有ViT的GAN
    • ViTGAN模型远优于基于Transformer的GAN模型,在不使用卷积或池化的情况下,性能与基于CNN的GAN(如Style-GAN2)相当
    • ViTGAN模型是首个在GAN中利用视觉Transformer的模型之一

2 方法

论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习

  • 直接使用ViT作为鉴别器会使训练变得不稳定。
    • 论文对生成器和鉴别器都引入了新的技术,用来稳定训练动态并促进收敛。
      • (1)ViT鉴别器的正则化;
      • (2)生成器的新架构

 2.1 ViT鉴别器的正则化

  • 利普希茨连续(Lipschitz continuity)在GAN鉴别器中很重要
    • GAN笔记:利普希茨连续(Lipschitz continuity)_UQI-LIUWJ的博客-CSDN博客
  • 然而,最近的一项工作表明,标准dot product self-attention层的Lipschitz常数可以是无界的,使Lipschitz连续在ViTs中被违反。
    • —>1,用欧氏距离代替点积相似度
      • 论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习
    • —>2,在初始化时将每层的归一化权重矩阵与spectral norm相乘
      • 对于任意矩阵 A,其Spectral Norm定义为:
        • 论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习
        • 也可以定义为矩阵 A 的最大奇异值
      • 论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习
        • σ计算矩阵的Spectral Norm

2.2 设计生成器

论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习

3  实验

论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习

论文笔记:ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习 文章来源地址https://www.toymoban.com/news/detail-731199.html

到了这里,关于论文笔记:ViTGAN: Training GANs with Vision Transformers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【论文概述】 本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Trans

    2024年02月02日
    浏览(66)
  • REC 系列 Visual Grounding with Transformers 论文阅读笔记

    写在前面   Hello,马上又是一周过去了,快要开学了,不知道小伙伴们状态都调整过来了吗?加油噢~   这同样是一篇关于 REC 的文章,文章时间比较早了,但也是属于那种入门必看的文章。 论文地址:VISUAL GROUNDING WITH TRANSFORMERS 代码地址:https://github.com/usr922/vgtr 收录于

    2024年02月12日
    浏览(36)
  • 【论文阅读笔记】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    Müller-Franzes G, Müller-Franzes F, Huck L, et al. Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers–A multi-institutional evaluation[J]. arXiv preprint arXiv:2304.08972, 2023.【代码开放】 本文创新点一般,只做简单总结 【论文概述】 本文介绍了一项关于乳房MRI中纤维腺体组织分割的研究,主

    2024年02月03日
    浏览(43)
  • 【论文笔记】BiFormer: Vision Transformer with Bi-Level Routing Attention

    论文地址:BiFormer: Vision Transformer with Bi-Level Routing Attention 代码地址:https://github.com/rayleizhu/BiFormer vision transformer中Attention是极其重要的模块,但是它有着非常大的缺点:计算量太大。 BiFormer提出了Bi-Level Routing Attention,在Attention计算时,只关注最重要的token,由此来降低计算量

    2024年01月25日
    浏览(89)
  • DETR-《End-to-End Object Detection with Transformers》论文精读笔记

    End-to-End Object Detection with Transformers 参考:跟着李沐学AI-DETR 论文精读【论文精读】 在摘要部分作者,主要说明了如下几点: DETR是一个端到端(end-to-end)框架,释放了传统基于CNN框架的一阶段(YOLO等)、二阶段(FasterRCNN等)目标检测器中需要大量的人工参与的步骤,例如:

    2024年02月11日
    浏览(52)
  • MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory

    论文链接:https://ziweiwangthu.github.io/data/MCUFormer.pdf 源码链接:https://hub.yzuu.cf/liangyn22/MCUFormer 用于现实应用的深度神经网络部署通常需要高性能计算设备,如GPU和TPU。由于这些设备的高昂价格和能耗,不可接受的部署费用严格限制了深度模型在各种任务中使用。用于现实应用的

    2024年01月23日
    浏览(43)
  • 论文笔记:A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

    ICLR 2023 比较简单,就不分intro、model这些了 给定每个时间段的长度、划分的stride,将时间序列分成若干个时间段 时间段之间可以有重叠,也可以没有 每一个时间段视为一个token 降低复杂度 Attention 的复杂度是和 token 数量成二次方关系。 如果每一个 patch 代表一个 token,而不是

    2024年02月07日
    浏览(47)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(78)
  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(48)
  • 【论文阅读】InstructGPT: Training language models to follow instructions with human feedback

    论文链接:InstructGPT 🤗关注公众号 funNLPer 了解更多AI算法🤗 把语言模型变大并不意味着会让模型更好的理解用户意图,例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户,换句话说,这些模型并没有和用户的意图对齐(aligned)。在这篇论文中我们展示了

    2023年04月19日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包