论文名称:On Data Scaling in Masked Image Modeling
发表时间:CVPR2023
作者及组织:Zhenda Xie, ZhengZhang, Hu Han等,来自清华,西安交大,微软亚洲研究院。
前言
本文验证SIMMIM无监督预训练方法,是否会出现与NLP类似的拓展法则现象。
1、结论
这篇论文做了大量的对比实验,因此,先说结论:
1)大模型在小数据上过拟合;(感觉没啥a)
2)MIM需要更多的训练次数
T
T
T ;
3)预训练阶段的valid loss是对下游任务性能的很好代理指标。
总结:MIM的拓展法则可用这个式子近似:
P
r
e
c
i
s
i
o
n
=
D
a
t
a
_
S
c
a
l
e
∗
M
o
d
e
l
_
S
i
z
e
∗
T
\begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation}
Precision=Data_Scale∗Model_Size∗T
2、实验
2.1.对比实验配置
1)模型:swin,参数量:50M1B,Flops:9G190G;
2) 数据:如下图所示,将ImageNet1k按百分比划分出若干组子数据;
3) 训练时长:125k,250k以及500k。在ImageNet1k上换算就是200,400,800epochs。
2.2.Pretrained实验结论:
上图表示在不同训练时长下在ImageNet1k上的精度:
首先说下simmim预训练方法的一个性质:能够用较少的数据跟用大量数据的有监督学习的精度持平。
1)第二列:Swin_L比Swin_H精度高,因为后者在IN1k20%出现过拟合;
2)当IN1k增加到IN22k时,Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了,要想精度更高可能需要调大模型。
3)在800epoch下,IN1K对于上述五个模型均未出现过拟合!IN1k对于小模型的数据量是够用的。
2.3.Finetune实验结论:
这里主要贴下coco上实验结论:在IN1k下在800epoch下,mAP是一直涨,但在IN22K下mAP似乎也饱和了。(论文中更大模型实验没做a…)
2.4.Pretrain stage的valid loss是Finetune的代理指标
上图红圈表示过拟合模型,绿圈表示非过拟合模型;不管过不过拟合在valid loss跟mAP是正相关的。文章来源:https://www.toymoban.com/news/detail-813975.html
2.5.结论
在IN1k,小模型swin_s/b,只要在预训练阶段valid loss持续下降,则训练时长越长越好(至少800epoch)。文章来源地址https://www.toymoban.com/news/detail-813975.html
到了这里,关于On Data Scaling in Masked Image Modelin的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!