【自监督论文阅读 2】MAE

这篇具有很好参考价值的文章主要介绍了【自监督论文阅读 2】MAE。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。



自监督论文阅读系列:
【自监督论文阅读 1】SimCLR
【自监督论文阅读 2】MAE
【自监督论文阅读 3】DINOv1
【自监督论文阅读 4】BYOL


论文地址:https://arxiv.org/pdf/2111.06377.pdf
github代码地址:https://github.com/facebookresearch/mae
沐神B站视频讲解地址(看这个视频就够了):https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=e768911f41969985adfce85914bfde8f
论文题目:Masked Autoencoders Are Scalable Vision Learners
论文作者: Kaiming He, Xinlei Chen,Saining Xie, Yanghao Li, Piotr Doll´ar, Ross Girshick


一、摘要

这篇文章,展示了在计算视觉领域,masked的自编码器(简称MAE)是一个可拓展的自监督学习器。
MAE的架构是比较简单的:随机mask图像块,然后重构失去的图像块,主要由两个设计构成:

  • 非对称的encoder-decoder架构,其中encoder仅用于可见的图像块,decoder则是轻量的,基于基于潜在表征和mask的token来重构原始输入图像
  • 本文发现,遮住更多的图像块,比如75%,可以得到一个平凡但有意义的自监督任务

基于以上设计,可以高效且有效的训练大模型,结果如下:

  • 加快了训练:3倍或者更多,同时提高了准确率
  • 训练的方法,可以应用到各种高容量的模型中:比如Vit-Huge取得了87.8%的精度,在仅采用ImageNet-1K 的数据下。
  • 还可以拓展到其他下游任务中:使用预训练模型应用在下游任务中时,性能优于监督学习。

二、引言

2.1 引言部分

深度学习架构、能力都在不断的增长,在硬件快速增长的帮助下,模型很容易拟合100万张图像,并且开始像数亿张图像进军,当然,这些图像通常是公开,且未标注的。

NLP在自监督学习领域取得巨大成功,比如GPT、BERT(masked 的自编码器)等等,在概念上都是比较简易的:移除一定概率的内容,学习预测这些内容。这些方法可以训练超过1000亿个参数的广义NLP模型。

由于BERT取得巨大成功,masked的自编码器(MAE)应用到图像领域也引起了极大的兴趣,但是,视觉领域的自编码方法的进展仍然落后NLP。

是什么导致MAE在视觉和语言任务上的不同?作者做如下解答:

  • 1、架构不同:在视觉领域,卷积网络是主流,卷积在规律网格上操作,不直聚合提示器比如mask tokens或者位置编码;
  • 2、信息密度不同:自然语言有着高语义和高密度信息,一个词就是一个语义的实体;图像相反,像素是冗余的,missing patch能够从相邻块还原;
  • 3、自动编码码里的解码器不同:Bert用一个MLP即可对词预测,而图像解码器的设计在学习语义上的潜在表示起着关键作用(PS: 一个全连接显然还原不了图像)

2.2 本文架构

基于以上分析,本文提出了一个简单、有效、可拓展的masked 自编码器(MAE), 可以应用到视觉表征学习中,结构如下图所示:

【自监督论文阅读 2】MAE

  • step1:随机大比例Mask图像块,约75%; (为了解决图像信息冗余的问题,本文选择mask掉更多比例的patches)
  • step2:编码器仅应用在可见的图像块中; (双赢!即加快了计算速度,又提高的准确率。PS:掩码这么多都能还原,那表征信息肯定学的多呀)
  • step3:可见块的编码信息与共享权重的mask的token结合,送入到轻量化的decoder(另外一个Vit模型)中,重构原始图像;(将mask tokens转移到小的decoder中可以大大减少计算)
  • step3:仅将全部patch的编码器应用到下游任务中 (解码器后的信息丢弃)

下图展示了mask后的还原信息(PS: 这么少的图像patch, 都能有效还原,明显超过人类了)
【自监督论文阅读 2】MAE

三、相关工作

3.1 Masked language modeling

masked 语言模型,比如Bert、GPT等,在NLP都取得了巨大的成功,并且是可拓展的,表明了预训练的表征可以应用到众多下游任务中。这些方法都是在输入队列中,移除一部分,然后预测消失的内容。

3.2 Autoencoding

自编码器是表征学习里很经典的方法:

  • 1、对输入进行编码,生成 latent representation;
  • 2、从 latent representation中解码,还原原始输入。

像PCA、K-means都是一定形式的自编码器, Denoising autoencoders (DAE) 是一个很典型的自编码器:在输入信号中添加噪声,然后重构原始输入,未损坏的信号。

本文方法也相当于一定形式的噪声,但是在很多方面与经典的DAE有所不同。

3.3 Masked image encoding

通过mask图像学习特征表示,比如DAE。 受NLP领域的成功,iGPT、BEiT等将Vit成功应用到视觉领域。与本文效果特别接近的是,BEiT提出学习一个离散的tokens,然后每个patch还原这些tokens.

这里MAE则是直接还原原始像素信息,更简单实现。

3.4 Self-supervised learning

自监督学习通常聚焦于不同的pretext任务。

最近对比学习比较火:通常是在两个或者更多的view上建模图像的相似度,然后对比学习非常依赖数据增强,这个本文的自动编解码,追求的是不同的方向。

四、方法

具体流程在 2.2中已经介绍,这里描述一下各个设计的意义:

4.1 Masking

随机大比例Mask图像块,约75%.

高比例随机采样patch的好处:

  1. 大大降低了图像的冗余;
  2. 创建了任务,不能被简单的从相邻的patch中推断出来的任务
  3. 均匀分布防止了潜在的中心偏差(中心偏差指在图像中心附近有更多的mask)
  4. 高度稀疏的输入为设计一个有效的编码器创造机

4.2 MAE encoder

编码器就是一个Vit模型,但是仅用于可见的图像块中(没有masked的),和标准的ViT模型一样, 本文的编码器也是经过一个线性头+位置编码得到编码向量,再送入到一系列的Transform 的Block中,得到潜在表征。

编码器仅应用在小比例的图像块中(大约25%),这个就使得,可以训练一些大的编码器。

4.3 MAE decoder

解码器输入由两部分组成:可见图像的编码信息和 mask的token

  • 没有被mask的图像块,直接送入编码器中
  • 被mask的图像块,通过一个共享的,可学习的向量表示

解码器就是一个新的Transform, 对mask的图像块加入了位置信息。(PS:论文中,对没有mask的图像块,并没有再次加入位置信息,我猜测可能编码的时候,已经有位置信息在里面了)

4.4 Reconstruction target

decoder的输出就是一个全连接,然后reshape成重建的图像,使用MSE损失,并且仅作用在被masked的图像块上。

实现方式:

  • 首先对每个patch做线性投影+位置信息,生成token列表
  • 随机打乱,对mask的区域用一个向量共享,然后通过unshuffle操作还原,并加上位置信息。

还强调了预测归一化后的像素是效果是最好的(即预测均值和方差)

五、主要实验

5.1 不同mask比例下的效果

可以看出,大约75%时的效果最好
【自监督论文阅读 2】MAE

5.2 消融实验

做了一些实验,所有层都微调 和冻结特征表征层,仅微调线性层,一些总结如下:

  • 所有层都微调时,消融试验后的精度差不多
  • 解码器深度为8时,精度最佳
  • 解码器宽度为512时,精度最佳
  • 编码器中,不加入被mask的块,比加入效果更好
  • 重构目标时,重构像素且加上归一化效果最好 (PS:仅比BEiT高一点点,但方法更简单)
  • 不是特别依赖数据增强
  • 采样的方式:随机采样的效果是最好的
    【自监督论文阅读 2】MAE
    下图展示了不同采样方式
    【自监督论文阅读 2】MAE

5.3 训练时间

官方代码是pytorch的,论文里用的TF
【自监督论文阅读 2】MAE

5.4 预训练轮数

1000个epochs后,还有拟合空间。
【自监督论文阅读 2】MAE

5.5 和以前方法的精度比较

【自监督论文阅读 2】MAE

5.5 冻结多少层,进行微调最合适

这里是和MoCo V3比较的,从表上看,MAE在4层之前,效果就超过了全部微调的MoCoV3.
【自监督论文阅读 2】MAE

5.6 迁移学习

列了语义分割,目标检测、分类等下游任务,都是最佳。
【自监督论文阅读 2】MAE文章来源地址https://www.toymoban.com/news/detail-497791.html

六、结论

  • 利用ViT, 根Bert一样进行自监督(在图像领域)
  • 盖住更多的图像块,可以降低图像块之间的冗余度,使任务更加复杂
  • 使用transform架构的解码器,直接还原原始像素信息,流程更加简单
  • 加上Vit后的各种技术,使训练更加鲁棒

到了这里,关于【自监督论文阅读 2】MAE的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分

    本文提出一个新的无监督的AES方法ULRA,它不需要真实的作文分数标签进行训练; ULRA的核心思想是使用多个启发式的质量信号作为伪标准答案,然后通过学习这些质量信号的聚合来训练神经自动评分模型。 为了将这些不一致的质量信号聚合为一个统一的监督信号,我们将自动

    2024年02月16日
    浏览(27)
  • 李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等)

    传送门: 李沐论文精读系列一: ResNet、Transformer、GAN、BERT 李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 1.1 导言 参考: 论文:Momentum Contrast for Unsupervised Visual Representation Learni

    2024年02月04日
    浏览(39)
  • 李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer

    传送门: 李沐论文精读系列一: ResNet、Transformer、GAN、BERT 李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 论文名称: An Image Is Worth 16x16 Words: Transformers For Imag

    2024年01月17日
    浏览(35)
  • 【论文阅读】深度多视图聚类的自监督判别特征学习

    文章链接 聚类结构不明确 的某些视图所带来的负面影响,导致多视图聚类性能较差,所以本文提出SDMVC。 深度编码器用来独立的学习每个视图 ;为了利用互补信息, 将所有视图的嵌入特征串联起来形成全局特征 ,可以克服某些视图聚类结构不清晰的负面影响。以 自监督的

    2024年02月02日
    浏览(31)
  • MAE:视觉自监督2021(原理+代码)

    主要介绍MAE及其升级版CAE原理与代码 代码连接:MAE: https://github.com/facebookresearch/mae CAE :https://github.com/lxtGH/CAE 论文「Masked Autoencoders Are Scalable Vision Learners」 证明了 masked autoencoders(MAE) 是一种可扩展的计算机视觉自监督学习方法。 本文提出了一种掩膜自编码器 (MAE)架构,

    2023年04月08日
    浏览(24)
  • 【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

    Multi-class Token Transformer for Weakly Supervised Semantic Segmentation 本文提出了一种新的基于变换的框架来学习类特定对象定位映射作为弱监督语义分割(WSSS)的伪标签    可以利用标准视觉转换器中一个类令牌的参与区域来形成与类无关的定位映射,我们研究了转换器模型是否也可以通

    2024年04月17日
    浏览(42)
  • 【阅读论文】USAD:多变量时间序列上的无监督异常检测

    USAD : UnSupervised Anomaly Detection on Multivariate Time Series IT系统的自动监控是Orange目前面临的挑战。考虑到其IT运营所达到的规模和复杂性,随着时间的推移,用于推断正常和异常行为的测量所需的传感器数量急剧增加,使得传统的基于专家的监督方法变得缓慢或容易出错。在本文中

    2024年02月12日
    浏览(38)
  • 深度学习|自监督学习、MAE学习策略、消融实验

    前言:最近在阅读论文,发现太多机器学习的知识不懂,把最近看的一篇论文有关的知识点汇总了一下。 Pretrain-Finetune(预训练+精调)模式:迁移学习,通过在源域数据上学习知识,再迁移到下游其他目标任务上,提升目标任务上的效果。 Self-supervised Learning(自监督学习)

    2024年02月12日
    浏览(29)
  • 基于卷积神经网络的MAE自监督方法

    本文分享自华为云社区《基于卷积神经网络的MAE自监督方法》,作者: Hint 。 图像自监督预训练算法是近年来的重要研究方向,MAE是其中基于ViT实现的代表性方法,学习到了鲁棒的视觉特征。MAE全称是Masked Autoencoders,是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任

    2024年02月13日
    浏览(36)
  • 论文阅读 1| 从仿真域到实验域无监督轴承故障诊断的新型联合传输网络

    标题: Novel Joint Transfer Network for Unsupervised Bearing Fault Diagnosis From Simulation Domain to Experimental Domain 期刊:IEEE-ASME TRANSACTIONS ON MECHATRONICS      (2022) 作者:Yiming Xiao, Haidong Shao,SongYu Han, Zhiqiang Huo,and Jiafu Wan 解决的问题 :迁移诊断场景仅限于实验域,跨 域边缘分布和条件分

    2024年01月24日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包