On Data Scaling in Masked Image Modelin-Toy模板网

这篇具有很好参考价值的文章主要介绍了On Data Scaling in Masked Image Modelin。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文名称：On Data Scaling in Masked Image Modeling
发表时间：CVPR2023
作者及组织：Zhenda Xie, ZhengZhang, Hu Han等，来自清华，西安交大，微软亚洲研究院。

前言

本文验证SIMMIM无监督预训练方法，是否会出现与NLP类似的拓展法则现象。

1、结论

这篇论文做了大量的对比实验，因此，先说结论：
1）大模型在小数据上过拟合；（感觉没啥a）
2）MIM需要更多的训练次数 $T$ ;
3）预训练阶段的valid loss是对下游任务性能的很好代理指标。
总结：MIM的拓展法则可用这个式子近似：
$\begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation}$

2、实验

2.1.对比实验配置

1）模型：swin，参数量：50M_{1B，Flops：9G}190G；
On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

2) 数据：如下图所示，将ImageNet1k按百分比划分出若干组子数据；
On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

3) 训练时长：125k，250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论：

On Data Scaling in Masked Image Modelin,深度学习,人工智能,自然语言处理

上图表示在不同训练时长下在ImageNet1k上的精度：
首先说下simmim预训练方法的一个性质：能够用较少的数据跟用大量数据的有监督学习的精度持平。
1）第二列：Swin_L比Swin_H精度高，因为后者在IN1k20%出现过拟合；
2）当IN1k增加到IN22k时，Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了，要想精度更高可能需要调大模型。
3）在800epoch下，IN1K对于上述五个模型均未出现过拟合！IN1k对于小模型的数据量是够用的。