On Data Scaling in Masked Image Modelin

这篇具有很好参考价值的文章主要介绍了On Data Scaling in Masked Image Modelin。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文名称:On Data Scaling in Masked Image Modeling
发表时间:CVPR2023
作者及组织:Zhenda Xie, ZhengZhang, Hu Han等,来自清华,西安交大,微软亚洲研究院。

前言

 本文验证SIMMIM无监督预训练方法,是否会出现与NLP类似的拓展法则现象。

1、结论

 这篇论文做了大量的对比实验,因此,先说结论:
 1)大模型在小数据上过拟合;(感觉没啥a)
 2)MIM需要更多的训练次数 T T T ;
 3)预训练阶段的valid loss是对下游任务性能的很好代理指标。
 总结:MIM的拓展法则可用这个式子近似:
P r e c i s i o n = D a t a _ S c a l e ∗ M o d e l _ S i z e ∗ T \begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation} Precision=Data_ScaleModel_SizeT

2、实验

2.1.对比实验配置

1)模型:swin,参数量:50M1B,Flops:9G190G;
On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

2) 数据:如下图所示,将ImageNet1k按百分比划分出若干组子数据;
On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

3) 训练时长:125k,250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论:

On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

 上图表示在不同训练时长下在ImageNet1k上的精度:
 首先说下simmim预训练方法的一个性质:能够用较少的数据跟用大量数据的有监督学习的精度持平。
 1)第二列:Swin_L比Swin_H精度高,因为后者在IN1k20%出现过拟合;
 2)当IN1k增加到IN22k时,Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了,要想精度更高可能需要调大模型。
 3)在800epoch下,IN1K对于上述五个模型均未出现过拟合!IN1k对于小模型的数据量是够用的。

2.3.Finetune实验结论:

 这里主要贴下coco上实验结论:在IN1k下在800epoch下,mAP是一直涨,但在IN22K下mAP似乎也饱和了。(论文中更大模型实验没做a…)
On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

2.4.Pretrain stage的valid loss是Finetune的代理指标

On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

 上图红圈表示过拟合模型,绿圈表示非过拟合模型;不管过不过拟合在valid loss跟mAP是正相关的。

2.5.结论

 在IN1k,小模型swin_s/b,只要在预训练阶段valid loss持续下降,则训练时长越长越好(至少800epoch)。文章来源地址https://www.toymoban.com/news/detail-813975.html

到了这里,关于On Data Scaling in Masked Image Modelin的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

            深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而,存在  自然场景与RS场景之间的领域差距 ,以及 RS模型泛化能力差 等问题。开发 具有通用 RS 特征表示的基础模型 是有意义的。

    2024年02月16日
    浏览(49)
  • Scaling data processing with Amazon EMR at the speed of market volatility

    Good evening everyone. Thanks for joining with us. My name is Meenakshi Shankaran. I\\\'m a senior big data architect with AWS. For the past three years, I have Sat Kumar Sami, Director of Technology FINRA with me and we are here to speak about scaling EMR at the speed of market volatility. And before we get started, I have two questions: How many of you have w

    2024年02月03日
    浏览(38)
  • “大数据处理”的现状 Scaling up and out: Towards an efficient processing of big Data

    作者:禅与计算机程序设计艺术 Hadoop 是 Apache 基金会于 2007 年推出的开源分布式计算框架。它是一个通用计算平台,可用于存储、处理和分析大量的数据集。它是一个分布式文件系统(HDFS),一个资源管理器(YARN),和一些常用的组件如 MapReduce、Hive 和 Pig。在数据量达到海

    2024年02月08日
    浏览(45)
  • 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月09日
    浏览(43)
  • base64 前端显示 data:image/jpg;base64

    通常base64是后端服务之间传输时常用的一种方式。即把图片流转成了byte数组,再转成一长串字符串(这就是我们看到的base64格式字符串)。 想要还原成图片,后端通常的做法是将base64的字符串转成byte数组,再将byte数组装到流里写出来,就是图片了。 放在前端显示,主需在

    2024年02月04日
    浏览(39)
  • 【图像修复】论文阅读笔记 ----- 《Image inpainting based on deep learning: A review》

    原文下载链接1:https://www.sciencedirect.com/science/article/abs/pii/S0141938221000391 原文下载链接2:http://s.dic.cool/S/KSS4D4LC 本篇论文综述发表于2021年。文章总结了基于深度学习的不同类型神经网络结构的修复方法,然后分析和研究了重要的技术改进机制;从模型网络结构和恢复方法等方

    2024年02月01日
    浏览(60)
  • 解决苹果手机wx.canvasToTempFilePath:fail on image问题,canvas的那些坑,图片失真问题

    用小程序做过画图工具的小伙伴,可能都遇到过这个问题,程序在安卓手机和电脑上面都没有问题,但是同样的代码在苹果手机下就出现了该问题:wx.canvasToTempFilePath:fail on image。 网上有很多解决方案,比如不能加隐藏none,hidden等。这些CSS设置的初衷会为了隐藏画布,与画

    2024年02月09日
    浏览(53)
  • Guided Diffusion/Diffusion Models Beat GANs on Image Synthesis (Paper reading)

    Prafulla Dhariwal, OpenAI, NeurlPS2021, Cited: 555, Code, Paper. 对于条件图像合成,我们通过分类器指导进一步提高样本质量:一种简单、计算效率高的方法,使用分类器的梯度来权衡样本质量的多样性。我们在 ImageNet 128×128 上实现了 2.97 的 FID,在 ImageNet 256×256 上实现了 4.59,在 ImageNe

    2024年02月16日
    浏览(40)
  • 【图像拼接】论文精读:Image Stitching Based on Semantic Planar Region Consensus(PRCS)

    第一次来请先看这篇文章:【图像拼接(Image Stitching)】关于【图像拼接论文精读】专栏的相关说明,包含专栏使用说明、创新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年02月03日
    浏览(48)
  • uniapp onLoad生命周期 uni.$on接受参数无法改变data数据解决办法

    问题阐述: 用以上写法来跨页面传参会发现在b页面,虽然能够接受到参数但是赋值到data时候没生效,虽然控制台能够打印出数据,但是页面上面并不会动态改变。用setTimeout包裹也没有用 如果想要用$emit和 $on来跨页面传参,只适合以下情况 如果想要实现a-b传值可以这样

    2024年02月10日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包