MAE 论文精读 | 在CV领域自监督的Bert思想

这篇具有很好参考价值的文章主要介绍了MAE 论文精读 | 在CV领域自监督的Bert思想。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 背景

之前我们了解了VIT和transformer

MAE 是基于VIT的,不过像BERT探索了自监督学习在NLP领域的transformer架构的应用,MAE探索了自监督学习在CV的transformer的应用

MAE 论文精读 | 在CV领域自监督的Bert思想,读论文,bert,人工智能,深度学习

 

论文标题中的Auto就是说标号来自于图片本身,暗示了这种无监督的学习

2.方法

像是Bert一样,通过mask形成带掩码的语言模型,挖掉东西,然后让模型来估计

 

随机盖住一些块patch,然后预测出盖住的patch,预测这个patch里的所有像素

遮住更大的块的话可以让模型学习一些更好的表征

要注意这些模型的基本都很大

2.1 基本流程

MAE 论文精读 | 在CV领域自监督的Bert思想,读论文,bert,人工智能,深度学习

(1)首先输入图像随机打成一个一个的块patch,随机遮住其中一些

(2)然后将未遮住的块送入Encoder编码器进行编码 形成特征,这里注意我们的编码器只需要处理未遮住的块,所以计算量要比全部处理更小

(3)和原来遮住的块叠加拼接 再送入decoder解码器恢复被遮住的块

实际使用中,只需要用编码器即可(不需要做掩码)编码器提取特征用于计算机视觉的下游任务

由于编码很重要,所以主要的计算量还是来自编码器

2.2 与VIT比较

(1)盖住更多的块,使得块与块之间的冗余没有那么高

(2)用一个transformer架构的解码器,直接还原原始像素信息,使得整个流程更加简单

(3)加上一些技术,如正则项技术,也可以在小一点的数据集上训练出来,使得训练更加鲁棒

3.实验

映射的维度

微调可以调整个全部的网络,也可以调最后一层,或者调网络中的部分层,微调哪些层

尝试不同遮住率文章来源地址https://www.toymoban.com/news/detail-679848.html

到了这里,关于MAE 论文精读 | 在CV领域自监督的Bert思想的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • BERT精读

    论文精读 —— BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding - 知乎 (zhihu.com) pre-training:在一个数据集上训练好一个模型,这个模型主要的目的是用在一个别的任务上面。别的任务如果叫training,那么在大的数据集上训练我这个任务叫做pre-training。 NLP任务中使

    2024年02月16日
    浏览(30)
  • 论文精读--MAE

    BERT在Transformer的架构上进行了掩码操作,取得了很好的效果。如果对ViT进行掩码操作呢? 分成patch后灰色表示遮盖住,再将可见的patch输入encoder,把encoder得到的特征拉长放回原本在图片中的位置,最后由decoder去重构图片  图二的图片来自ImageNet,没有经过训练,是验证集。左

    2024年02月21日
    浏览(28)
  • 【自监督论文阅读 2】MAE

    自监督论文阅读系列: 【自监督论文阅读 1】SimCLR 【自监督论文阅读 2】MAE 【自监督论文阅读 3】DINOv1 【自监督论文阅读 4】BYOL 论文地址:https://arxiv.org/pdf/2111.06377.pdf github代码地址:https://github.com/facebookresearch/mae 沐神B站视频讲解地址(看这个视频就够了):https://www.bilibili

    2024年02月10日
    浏览(53)
  • 李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer

    传送门: 李沐论文精读系列一: ResNet、Transformer、GAN、BERT 李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 论文名称: An Image Is Worth 16x16 Words: Transformers For Imag

    2024年01月17日
    浏览(35)
  • Transformer、BERT和GPT 自然语言处理领域的重要模型

    Transformer、BERT和GPT都是自然语言处理领域的重要模型,它们之间有一些区别和联系。 区别: 架构:Transformer是一种基于自注意力机制的神经网络架构,用于编码输入序列和解码输出序列。BERT(Bidirectional Encoder Representations from Transformers)是基于Transformer架构的双向编码模型,

    2024年03月09日
    浏览(39)
  • NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践

    本项目对3种常用的文本匹配的方法进行实现:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)。 文本匹配(Text Matching)是 NLP 下的一个分支,通常用于计算两个句子之间的相似程度,在推荐、推理等场景下都有着重要的作用。 举例来讲,今天我们有一堆评论数据,我们

    2024年02月12日
    浏览(26)
  • 论文阅读——BERT

    ArXiv:https://arxiv.org/abs/1810.04805 github:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT   一、模型及特点: 1、模型:         深层双向transformer encoder结构         BERT-BASE:(L=12, H=768, A=12)         BERT-LARGE:(L=24, H=1024, A=16) 2、特点:         不同

    2024年02月08日
    浏览(31)
  • BERT论文解读及实现(一)

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding There are two steps in our framework: pre-training and fine-tuning . bert由预训练模型+微调模型组成。 ① pre-training , the model is trained on unlabeled data over different pre-training tasks. 预训练模型是在无标注数据上训练的 ② For fine-tuning, th

    2024年02月13日
    浏览(24)
  • 论文解读:Bert原理深入浅出

    摘取于https://www.jianshu.com/p/810ca25c4502 任务1:Masked Language Model Maked LM 是为了解决单向信息问题,现有的语言模型的问题在于,没有同时利用双向信息,如 ELMO 号称是双向LM,但实际上是两个单向 RNN 构成的语言模型的拼接,由于时间序列的关系,RNN模型预测当前词只依赖前面出

    2024年02月11日
    浏览(32)
  • 【论文解读】(如何微调BERT?) How to Fine-Tune BERT for Text Classification?

    论文地址:https://arxiv.org/pdf/1905.05583.pdf 论文年份:2019年05月 论文代码: https://github.com/xuyige/BERT4doc-Classification 论文引用量:1191 (截止2023-04-28) 论文阅读前提:熟悉NLP、深度学习、Transformer、BERT、多任务学习等。 现在NLP任务方式大多都是对BERT进行微调。例如:我们要做一个

    2024年02月07日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包