【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

这篇具有很好参考价值的文章主要介绍了【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

1.介绍

1.1  核心观点

当时的所有的重建目标都是关于低级图像元素的,低估了高级语义。

【Q】怎么去定义高级和低级语义

1.2 基本流程

VQ-KD编码器首先根据可学习码本将输入图像转换为离散令牌

然后,解码器学习重建由教师模型编码的语义特征,以离散令牌为条件

在训练VQ-KD之后,其编码器被用作BEIT预训练的语义视觉标记器,其中离散代码用作监督信号。

1.3 核心贡献

•我们提出了矢量量化的知识提取(vector-quantized knowledge distillation),将掩蔽图像建模从像素级提升到语义级,用于自监督表示学习。

•我们引入了一种补丁聚合策略,该策略在给定离散语义令牌的情况下强制执行全局结构,并提高了学习表示的性能。

2. 方法

该框架使用视觉标记器将每个图像转换为一组离散的视觉标记。训练目标是恢复掩蔽的视觉标记,每个视觉标记对应于一个图像补丁。

【Q】使用VQ-KD编码器有什么好处?

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 2.1 训练视觉分词器(Visual Tokenizer)

2.1.1 视觉分词器

分词器由Vit编码器和量化器组成。

2.1.2 训练视觉分词器的基本流程

  1. 标记器首先将输入图像编码为矢量。
  2. 矢量量化器在码本中查找每个补丁表示hi的最近邻居。
  3. 量化视觉标记送入解码器
  4. 最大化解码器输出和教师指导之间的余弦相似性。

2.1.3 量化过程

设{v1,v2,··,vK}表示码本嵌入。

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

这个公式表示了查找每个补丁在codebook中的最近邻居。

由于量化过程是不可微分的,所以梯度被直接从解码器输入复制到编码器输出(下图)

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

2.1.4 视觉分词器的训练目标

最大化解码器输出和教师指导之间的余弦相似性。

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 2.1.5 提高码本利用率

为了缓解码本崩溃(codebook collapse,即只使用了一小部分code)。

  • 在被送入解码器之前被映射回高维空间,因为量化过程会将码本嵌入空间的维数减少到32-d
  • 使用指数移动平均用于更新码本嵌入

2.2 预训练BEIT v2

  • 输入准备了一个可学习的[CLS]token,最后的编码向量中的h0表示[CLS]令牌。
  • 使用全连接层作为MIM头和softmax分类器预测掩蔽位置的视觉标记【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers,其中Wc、bc分别表示MIM头的权重和偏置。
  • MIM的训练损失定义为

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

                 D表示预训练图像,M表示掩蔽位置

2.2.1 预训练全局表示

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 

  • 预训练了用于全局图像表示的[CLS]令牌,为了减轻补丁级预训练和图像级表示聚合之间的差异
  • 为了预训练最后一层的[CLS]标记,将最后一层的[CLS]标记与中间第l层的补丁向量连接,送入解码器中并再次进行掩蔽预测。
  • 该令牌在预训练后被丢弃

3.代码

3.1 训练Vector-Quantized Visual Tokenizers

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 3.1.1 编码器

编码器部分 = base-vit + FFN降维 + NormEMAVectorQuantizer(量化器)

将作为encoder的vit得到的feature降维到32

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 3.1.2 解码器

编码器部分 = 一层的vit + FFN 

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 3.1.3 损失

损失由两部分构成:①量化器得到的损失 ②余弦相似损失

【todo】量化器!!!!

3.2 预训练 beit V2

基本上和beit相近

代码中有两种vit:一种就是普通的vit,这个老生常谈就不说了,另一种就是论文中增加了cls的VisionTransformerForMaskedImageModelingCLS。(如下图)

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

3.2.1 补丁聚合

 正如论文,

较浅的头部(即1/2层)比较深的头部(如3层)表现更好,这表明较浅的头比较深头部更关注输入[CLS]令牌。

取用了第6层(总共12层)的patch和最后一层的cls送入两层的一个vit结构中,作为全局聚合

【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 全局聚合部分只取cls【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

 损失函数最后就由两部分组成:①MIM损失②全局cls损失 文章来源地址https://www.toymoban.com/news/detail-511107.html

到了这里,关于【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(50)
  • 【论文笔记】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

    原文链接:https://arxiv.org/abs/2312.00752 基石模型(FM)的主干网络通常是序列模型,处理任意的输入序列。但现代FM主要基于Transformer这一序列模型,及其核心的注意力。但是,自注意力仅能在上下文窗口中密集地传递信息,而无法建模窗口外部的数据;此外,其尺度与窗口长度

    2024年04月26日
    浏览(31)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(38)
  • 【论文笔记】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

    原文链接:https://arxiv.org/abs/2308.03755 完全稀疏检测器在基于激光雷达的3D目标检测中有较高的效率和有效性,特别是对于长距离场景而言。 但是,由于点云的稀疏性,完全稀疏检测器面临的一大困难是中心特征丢失(CFM),即因为点云往往分布在物体表面,物体的中心特征通

    2024年02月02日
    浏览(36)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记

    由于大多数基于卷积神经网络或者Attention机制的超分辨模型大部分都是PSNR主导的,即用PSNR作为损失函数进行训练,这会导致超分辨图像过度平滑的问题,也就是超分辨后的图像高频信息不能很好保留,并且超分辨的图像较为固定,对于超分辨这种不适定问题来说不太合适。

    2024年02月11日
    浏览(35)
  • High-Resolution Image Synthesis with Latent Diffusion Models 稳定扩散模型论文笔记

    一、研究现状        早期图像生成方法主要是变分自动编码器(Variational Autoencoders, VAEs),该算法利用编码器和解码器以及变分推断的方法学习隐空间到真实图像空间的映射从而完成图像的生成。其优势是特征空间可迁移并且训练较为稳定,但是不容易进行模型评估,当输入

    2024年02月20日
    浏览(32)
  • 【CVPR 2023 论文解读】TriDet: Temporal Action Detection with Relative Boundary Modeling

    发表时间:CVPR 2023 作者团队:北航,美团,JD Explore 代码链接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    浏览(42)
  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节

    2024年01月20日
    浏览(32)
  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

    Chapter1 Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,

    2024年01月19日
    浏览(41)
  • 零样本参考图像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 论文笔记

    写在前面   新的一周开始了,冲冲冲~ 最近 Segment Anything 爆火,感觉一些方向可能就此终结了,比如少样本、零样本以及视频领域,但是新的方向也应该会源源不断涌出,切勿悲观~ 论文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features 代码地址:https://github

    2024年02月09日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包