MIM(掩码图像建模)

这篇具有很好参考价值的文章主要介绍了MIM(掩码图像建模)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

MIM无法从更大的数据中获益?本文系统地研究了不同模型大小和训练长度下 MIM 方法的数据缩放能力,验证了掩码图像建模 (MIM) 不仅具有模型缩放的能力,也同样具有数据缩放的能力。

本文是一篇实验探究类的工作,研究的问题是自监督学习 (掩码图像建模类方法) 的数据缩放问题。

自监督学习的一个重要目标是:让预训练的模型能够从大量的数据中获益。但是最近的自监督方法,掩码图像建模 (masked image modeling, MIM) 被怀疑无法从更大的数据中获益。

这项工作中作者通过大量实验打破了这种误解,数据规模从 ImageNet-1K 的 10% 到完整 ImageNet-22K,模型大小从4900万到10亿,训练长度从 125K 个 iteration 到 500K 个 iteration。作者的研究表明:

  1. 掩模图像建模也需要更大的数据: 作者观察到,非常大的模型在相对较小的数据下往往会过拟合。

  2. 训练时间的问题: 通过掩模图像建模训练的大模型,可以通过更长的训练,从更多的数据中受益。

  3. 预训练中的 validation loss 是衡量模型在多个任务上的微调效果的良好指标: 这种观察使我们能够对我们预训练的模型进行廉价的预评估,而不必每次都在下游任务上进行评估,因为太昂贵。

1 掩码图像建模中的数据缩放

论文名称:On Data Scaling in Masked Image Modeling (CVPR 2023)

论文地址:

https://arxiv.org/pdf/2206.04664.pdf

1.1 背景和动机

在 NLP 领域,缩放模型容量和数据大小使得过去几年的语言模型取得了显著的改进,其背后的方法是掩码图像建模 (Masked Image Modeling, MIM),这个方法取得成功的部分原因可能是:它能够从近乎无限量级的数据中获益。

在 CV 领域,由于缺乏有效的自监督方法,很多工作大多基于图像分类任务,巨大的打标签成本,以及标签有限的信息量限制了人们对视觉模型的缩放,从而使计算机视觉的进展大大落后于NLP领域。

由于 MAE 和 SimMIM 的诞生,掩码图像建模 (Masked Image Modeling, MIM) 的自监督视觉预训练方法在各种下游计算机视觉任务上令人印象深刻的性能。鉴于其与 NLP 中主要的预训练方法 Masked Language Modeling, MLM 高度相似,本文希望掩模图像建模能够提高视觉模型的缩放性能。具体来说,作者关注的是缩放能力的两个方面,即:模型的缩放和数据的缩放

MIM 方法已经被证明能够很好地扩大模型的容量,但其从较大数据中获益的能力还尚不清楚。但是,MIM 方法究竟能否从大数据集中获益?这个问题至关重要,因为自监督学习的重要标志是能够利用几乎无限的数据,如果不能从更大的数据中受益,可能会阻碍掩模图像建模的未来潜力。

所以,本文系统地研究了不同模型大小和训练长度下 MIM 方法的数据缩放能力。通过大量实验本文发现:

  1. 掩模图像建模也需要更大的数据: 作者观察到,大模型使用相对较小的数据训练时会过拟合,验证集损失增加。过拟合问题将导致微调性能下降。

  2. 训练时间的问题: 通过掩模图像建模训练的大模型,可以通过更长的训练,从更多的数据中受益。当训练长度较短时,使用大数据集和小数据集的性能差异不显著。但是如果是训练得比较充分,更多的数据训练得到的模型表现就更好了。此外,随着数据量的增加,大模型的微调性能饱和速度比小模型慢。

  3. 预训练中的验证集的损失是衡量模型在多个任务上的微调效果的良好指标: 作者观察到预训练时的 validation loss 和多个任务的微调性能之间存在很强的相关性。这一发现表明,验证集的损失是衡量模型训练程度的一个很好的指标,借助它可以方便地评估模型适不适合下游任务,而无需再微调,这样可以节约评估的开销。

这些结果表明,掩码图像建模 (MIM) 不仅具有模型缩放的能力,也同样具有数据缩放的能力。本文打破了以往研究中怀疑掩码图像建模不能从更多数据中受益的误解。我们希望这些发现将加深对掩模图像建模的理解。

1.2 掩码图像建模方法

MIM(掩码图像建模),人工智能,人工智能

1.3 模型架构

本研究使用 Swin Transformer V2[1] 作为视觉编码器。由于其通用性和可扩展性,作者在多个下游任务上评估了一系列模型大小的 SwinV2 模型 (参数数量范围从 ∼50M 到 ∼1B, FLOPs 范围从 ∼9G 到 ∼190G)。详细的模型规格如下图1所示。作者使用了一种新的变体 SwinV2-g (giant),其参数数量介于 SwinV2-L 和30亿参数的 SwinV2-G (Giant) 之间。

MIM(掩码图像建模),人工智能,人工智能

图1:本研究使用的模型架构

1.4 预训练数据集

为了研究数据大小对掩码图像建模的影响,作者构建了不同大小的数据集,使用 ImageNet-1K 和 ImageNet-22K 的训练集作为两个大规模的数据集,并随机抽取 ImageNet-1K 训练集中 10%、20%、50% 的图像作为较小的数据集。本研究中使用的所有预训练数据集的细节和统计如下图2所示。MIM(掩码图像建模),人工智能,人工智能图2:本研究使用的预训练数据集

1.5 预训练细节

所有实验训练的 iteration 数为 {125K, 250K, 500K},Batch Size 为2048,在预训练阶段,对所有模型使用相同的超参数,预训练的训练细节和超参数如下图3所示。由于实验数量较多,作者在预训练中对学习率使用 step scheduler。对于不同的 training ieration,前7/8是第1步,后1/8是第2步,二者的区别是学习率乘以0.1。本文使用与 SimMIM 相同的数据增强策略:Crop scale 为 [0.67,1],Resize ratio 为 [3/ 4,4 /3],随机翻转概率为0.5。

MIM(掩码图像建模),人工智能,人工智能

图3:预训练的训练细节和超参数

1.6 微调的下游任务

用于评估预训练模型的微调下游任务有:

ImageNet-1K 图像分类

训练超参数

MIM(掩码图像建模),人工智能,人工智能图4:ImageNet-1K 图像分类训练超参数

iNaturalist 2018 长尾细粒度图像分类数据集

训练超参数MIM(掩码图像建模),人工智能,人工智能图5:iNaturalist 2018 长尾数据集图像分类训练超参数

COCO 目标检测和实例分割

训练超参数MIM(掩码图像建模),人工智能,人工智能 图6:COCO 目标检测和实例分割

ADE20K 语义分割

训练超参数MIM(掩码图像建模),人工智能,人工智能图7:ADE20K 语义分割训练超参数

1.7 实验结果1:MIM 对大型数据集的要求仍然很高

如下图8,9所示是 training loss 和 validation loss 与 ImageNet-1K 微调精度之间的关系。

MIM(掩码图像建模),人工智能,人工智能图8:不同模型,数据规模,和训练长度下的 training loss,validation loss,ImageNet-1K 微调精度和训练长度之间的关系,更大的圆点代表更大的模型

从图8可以看出,随着训练成本的增加,部分模型的 training loss 显著下降,但是 validation loss 显著上升,即使使用 ImageNet-1K 的 50% 的图像,也存在过拟合现象。从图9可以看出,过拟合导致的微调性能显著下降。

MIM(掩码图像建模),人工智能,人工智能图9:不同模型,数据规模,和训练长度下的 training loss,validation loss,ImageNet-1K 微调精度和训练长度之间的关系

此外,作者在下图10中给出了每个模型的最佳微调性能。可以发现,当使用小数据集进行训练时,大型模型的表现甚至不如小型模型。例如,SwinV2-H 在 IN1K (20%) 的最佳 top-1 精度为84.4,比 SwinV2-L 的最佳性能差了0.3。而且,使用更多的数据可以获得更好的性能。这些观察结果表明,MIM 的预训练方法也是需要大数据集的。MIM(掩码图像建模),人工智能,人工智能

图10:每个模型的最佳 ImageNet-1K 微调性能

1.8 实验结果2:训练长度也很重要,较大的模型可以在较长的训练长度下从更多的数据中受益

如上图9的第3行所示,通过比较不同数据大小预训练的模型的性能,作者发现:与较小的模型相比,大模型的微调性能随着数据大小的增加而饱和得更慢。例如,在 IN1K (50%) 上预训练的 SwinV2-S 模型具有与在 IN1K (100%) 上预训练模型非常相似的微调性能。相比之下,在 IN1K (50%) 和 IN1K (100%) 上预训练的 SwinV2-H 模型之间的性能差异接近0.5,这对于 ImageNet-1K 分类来说是一个显著的差距。

而且,在较短的训练长度下,使用更多数据对预训练的改善并不显著。比如,训练 500K iteration,SwinV2-H 在 IN1K (50%) 和 IN1K (100%) 上的实验结果存在明显的性能差距。但是当训练 120K iteration 时,SwinV2-H 在 IN1K (50%) 和 IN1K (100%) 上的实验结果的差距小于 0.1。这一观察表明,虽然更大的模型可以从更多的数据中受益,但训练长度也必须同时增加。

1.9 实验结果3:其他任务的验证

除了 ImageNet-1K 图像分类,作者还评估了 MIM 预训练的 SwinV2-S, SwinV2-B 和 SwinV2-L 在 iNaturalist 2018 细粒度图像分类,ADE20K 语义分割和 COCO 目标检测和实例分割上的效果。如下图11所示,随着训练成本的增加,一些模型显示出过拟合的迹象。除此之外,如图12,13,14所示,随着数据量的增加,较小的模型迅速达到饱和,而较大的模型在经过足够的训练后,可以从更多的数据中持续受益。这些结果表明,在 ImageNet-1K 上得出的结论广泛适用于其他视觉任务。

MIM(掩码图像建模),人工智能,人工智能MIM(掩码图像建模),人工智能,人工智能1.10 预训练损失和微调性能之间的关系

作者还探索了 MIM 训练中的预训练的损失是否是其微调性能的良好指标。如下图15所示是所有模型的 training 和 validation loss 曲线。

对于过拟合模型 (绿圈),training loss 与下游任务的微调性能之间的相关性为负,validation loss 与下游任务的微调性能之间的相关性为正。

对于非过拟合模型 (红圈),training loss 与下游任务的微调性能之间的相关性为负,validation loss 与下游任务的微调性能之间的相关性为正。training loss 和 validation loss 与下游任务的微调性能之间的相关性都为正。

以上结果说明在多个任务上,预训练中的 validation loss 是衡量模型在多个任务上的微调效果的良好指标。

MIM(掩码图像建模),人工智能,人工智能图15:预训练损失和微调性能之间的关系

以上发现的量化指标如图16所示。图16表格中的数据是5种下游任务的 Pre-training losses 和微调结果的 Pearson correlation coefficients。可以看到,对于图16的5种下游任务,预训练的 validation loss 都和下游任务微调性能的负相关性的 Pearson correlation 较低。

MIM(掩码图像建模),人工智能,人工智能

图16:5种下游任务的 Pre-training losses 和微调结果的 Pearson correlation coefficients

总结              whaosoft aiot http://143ai.com  

本文是一篇实验探究类的工作,研究的问题是自监督学习 (掩码图像建模类方法) 的数据缩放问题,系统地探究了不同模型大小和训练长度下掩模图像建模的数据缩放能力。作者证明了 MIM 的自监督学习方法不仅仅是模型可扩展的,也是数据可扩展的。这挑战了以往文献的结论,即 MIM 可能不需要大的数据集。这背后的原因是他们忽略了一个关键因素,即训练长度。除此之外,还观察到 MIM 的 validation loss 与微调性能之间存在很强的相关性。这一观察结果表明,validation loss 可以被认为是评估预训练模型的一个很好的代理指标,所以这种观察使我们能够对我们预训练的模型进行廉价的预评估,而不必每次都在下游任务上进行评估,因为太昂贵。文章来源地址https://www.toymoban.com/news/detail-609302.html

到了这里,关于MIM(掩码图像建模)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python人工智能应用--图像识别&&深度学习

    像素(缩写为px)是图像中的最小单位,由一个个小方格组成。 这些小方格都有一个固定的位置和颜色,共同决定了图像所呈现出来的样子。 这些小方格的行数与列数又被叫做分辨率。我们常说的某幅图像的分辨率是1280×720,指的就是这张图中的每一行都有1280个像素,每一列都

    2024年04月09日
    浏览(68)
  • 人工智能在图像处理领域的应用

    随着科技的不断发展,人工智能(AI)逐渐成为当今社会的热点话题。人工智能正在逐渐渗透到人类生活的各个领域,改变着我们的生活方式和社会结构。在图像处理领域,人工智能的应用也越来越广泛,为图像处理带来了更高效、更准确的解决方案。本文将从图像分类、图

    2024年02月04日
    浏览(55)
  • Bard:一个可以描述图像的人工智能

    Bard 是一个大型语言模型,可以对各种提示和问题进行交流和生成类似人类的文本。它接受了大量的文字和代码训练,可以生成文本、翻译语言、编写不同类型的创意内容,并以信息丰富的方式回答你的问题。 Bard 还可以识别图像。它可以识别图像中的对象、场景和人物。它

    2024年02月17日
    浏览(43)
  • 【人工智能图像补全复现】基于GAN的图像补全

    本文解析和实现论文Globally and Locally Consistent Image Completion中的相关方法。论文亮点在于使用全局(整张图片)和局部(缺失补全部分)两种鉴别器来训练,并运用GAN使生成图像在各个尺度的特征与真实图像匹配。 :GAN;图像补全;多种鉴别器训练 文章来源:SIGGRAPH 2

    2024年04月24日
    浏览(36)
  • AI人工智能课题:图像增强图像修复系统的设计与实现(基于百度智能云AI接口)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年02月03日
    浏览(54)
  • 【统计建模选题】大数据和人工智能背景下新能源汽车某方面的统计研究

    针对新能源汽车行业,在大数据和人工智能背景下的统计研究是一个前沿且具有实际意义的研究方向。为了确保研究主题不偏离“大数据与人工智能”的主题框架,同时选取合适的指标进行研究,以下是一些建议: 1.体现大数据与人工智能主题 数据驱动的分析:明确指出研究

    2024年04月22日
    浏览(74)
  • 基于Springboot+百度AI人工智能图像图片智能处理系统设计与实现

    基于Springboot+百度AI人工智能图像图片智能处理系统设计与实现  博主介绍: 《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,

    2024年02月05日
    浏览(61)
  • 人工智能在图像处理中的应用:智能摄像头与视觉识别

    人工智能(Artificial Intelligence, AI)是一种计算机科学的分支,旨在模拟人类智能的行为和能力。其中,图像处理和视觉识别是人工智能领域中的重要应用领域。随着计算能力的提高和数据量的增加,人工智能在图像处理和视觉识别方面取得了显著的进展。 智能摄像头是一种具有

    2024年02月20日
    浏览(61)
  • 人工智能图像识别分析之——Yolov5模型训练

    上一课讲述了Yolov5模型环境搭建的过程 这一课讲Yolov5模型训练的过程 进行模型训练前,首先要先进行样本标注,标注后产生标注文件,将图片源文件和标注文件进行文件划分,本文以2000张负样本进行训练。 1.新建三级目录datasets/images/train、datasets/images/val 2.新建三级目录da

    2024年02月01日
    浏览(71)
  • oneAPI人工智能分析工具包实现图像处理

    oneAPI是一个由英特尔(Intel)主导的、面向异构计算的开放标准和平台。它旨在简化和加速跨多种硬件架构的应用程序开发,包括CPU、GPU、FPGA和其他加速器。 以下是关于oneAPI发展的一些要点: 1.创立背景和目标: oneAPI的发展始于英特尔意识到在异构计算时代,开发者面临的

    2024年02月11日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包