论文笔记：ViTGAN: Training GANs with Vision Transformers

10月前作者：UQI-LIUWJ 分类：Toy博客阅读(44) 违法举报

这篇具有很好参考价值的文章主要介绍了论文笔记：ViTGAN: Training GANs with Vision Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

2021

1 intro

论文研究的问题是：ViT是否可以在不使用卷积或池化的情况下完成图像生成任务
- 即不用CNN，而使用ViT来完成图像生成任务
将ViT架构集成到GAN中，发现现有的GAN正则化方法与self-attention机制的交互很差，导致训练过程中严重的不稳定
- ——>引入了新的正则化技术来训练带有ViT的GAN
- ViTGAN模型远优于基于Transformer的GAN模型，在不使用卷积或池化的情况下，性能与基于CNN的GAN（如Style-GAN2）相当
- ViTGAN模型是首个在GAN中利用视觉Transformer的模型之一

2 方法

直接使用ViT作为鉴别器会使训练变得不稳定。
- 论文对生成器和鉴别器都引入了新的技术，用来稳定训练动态并促进收敛。
  - (1)ViT鉴别器的正则化；
  - (2)生成器的新架构

2.1 ViT鉴别器的正则化

利普希茨连续（Lipschitz continuity）在GAN鉴别器中很重要
- GAN笔记：利普希茨连续（Lipschitz continuity）_UQI-LIUWJ的博客-CSDN博客
然而，最近的一项工作表明，标准dot product self-attention层的Lipschitz常数可以是无界的，使Lipschitz连续在ViTs中被违反。
- —>1，用欧氏距离代替点积相似度
- —>2，在初始化时将每层的归一化权重矩阵与spectral norm相乘
  - 对于任意矩阵 A，其Spectral Norm定义为：
    - 也可以定义为矩阵 A 的最大奇异值
  - - σ计算矩阵的Spectral Norm

2.2 设计生成器

论文笔记：ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习

3 实验

论文笔记：ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习

论文笔记：ViTGAN: Training GANs with Vision Transformers,论文笔记,论文阅读,计算机视觉,深度学习文章来源地址https://www.toymoban.com/news/detail-731199.html

到了这里，关于论文笔记：ViTGAN: Training GANs with Vision Transformers的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【论文概述】本文是关于医学图像分割中视觉变换器（Vision Transformers，ViTs）的最新综述。文中详细回顾了ViTs及其与卷积神经网络（CNNs）结合形成的混合视觉Trans

2024年02月02日
浏览(66)
REC 系列 Visual Grounding with Transformers 论文阅读笔记

写在前面 Hello，马上又是一周过去了，快要开学了，不知道小伙伴们状态都调整过来了吗？加油噢~ 这同样是一篇关于 REC 的文章，文章时间比较早了，但也是属于那种入门必看的文章。论文地址：VISUAL GROUNDING WITH TRANSFORMERS 代码地址：https://github.com/usr922/vgtr 收录于

2024年02月12日
浏览(36)
【论文阅读笔记】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

Müller-Franzes G, Müller-Franzes F, Huck L, et al. Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers–A multi-institutional evaluation[J]. arXiv preprint arXiv:2304.08972, 2023.【代码开放】本文创新点一般，只做简单总结【论文概述】本文介绍了一项关于乳房MRI中纤维腺体组织分割的研究，主

2024年02月03日
浏览(43)
【论文笔记】BiFormer: Vision Transformer with Bi-Level Routing Attention

论文地址：BiFormer: Vision Transformer with Bi-Level Routing Attention 代码地址：https://github.com/rayleizhu/BiFormer vision transformer中Attention是极其重要的模块，但是它有着非常大的缺点：计算量太大。 BiFormer提出了Bi-Level Routing Attention，在Attention计算时，只关注最重要的token，由此来降低计算量

2024年01月25日
浏览(89)
DETR-《End-to-End Object Detection with Transformers》论文精读笔记

End-to-End Object Detection with Transformers 参考：跟着李沐学AI-DETR 论文精读【论文精读】在摘要部分作者，主要说明了如下几点： DETR是一个端到端（end-to-end）框架，释放了传统基于CNN框架的一阶段（YOLO等）、二阶段（FasterRCNN等）目标检测器中需要大量的人工参与的步骤，例如：

2024年02月11日
浏览(52)
MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory

论文链接：https://ziweiwangthu.github.io/data/MCUFormer.pdf 源码链接：https://hub.yzuu.cf/liangyn22/MCUFormer 用于现实应用的深度神经网络部署通常需要高性能计算设备，如GPU和TPU。由于这些设备的高昂价格和能耗，不可接受的部署费用严格限制了深度模型在各种任务中使用。用于现实应用的

2024年01月23日
浏览(43)
论文笔记：A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

ICLR 2023 比较简单，就不分intro、model这些了给定每个时间段的长度、划分的stride，将时间序列分成若干个时间段时间段之间可以有重叠，也可以没有每一个时间段视为一个token 降低复杂度 Attention 的复杂度是和 token 数量成二次方关系。如果每一个 patch 代表一个 token，而不是

2024年02月07日
浏览(47)
【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

自然语言处理（Natural Language Processing，NLP）领域内的预训练语言模型，包括基于RNN的ELMo和ULMFiT，基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功，证明了我们可以从海量的无标注文本中学到潜在的语义信息，而无需为每一项下游NLP任务单独标注大量训练数据。

2024年02月14日
浏览(78)
跨模态检索论文阅读：(PTP)Position-guided Text Prompt for Vision-Language Pre-training

(PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力，促进了各种跨模态的学习任务。然而，我们注意到，VLP模型往往缺乏视觉基础/定位能力，这对许多下游任务如视觉推理至

2024年02月11日
浏览(48)
【论文阅读】InstructGPT: Training language models to follow instructions with human feedback

论文链接：InstructGPT 🤗关注公众号 funNLPer 了解更多AI算法🤗 把语言模型变大并不意味着会让模型更好的理解用户意图，例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户，换句话说，这些模型并没有和用户的意图对齐（aligned）。在这篇论文中我们展示了

2023年04月19日
浏览(54)