何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

这篇具有很好参考价值的文章主要介绍了何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

杨净 艳艳 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明团队又上新了。

这次,他们的成果围绕当下最火的AIGC背后的CLIP展开。

——只在该模型的极简结构上,施加了一个简单的mask,就让新模型的速度快了3.7倍。

同时,性能还可以做到不降反升

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

团队表示,希望他们的工作能帮助未来视觉语言模型实现规模化。

这波,让大家直呼:不愧是何恺明,还是熟悉的味道啊~

是的,还是“大道至简”的feel。

就连论文也一如既往,短短12页,一行公式也没有。

一起来拜读吧。

引入类似MAE的mask

本文提出了一个用来训练CLIP的快速、简单且有效的方法FLIP

Fast Language-Image Pre-training(快速文本-图像预训练方法),也是很直接了。

简单来说,就是基于原有的CLIP架构,对输入图像的那一侧, 随机掩蔽图像区块,之后只对可见区块编码。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

原有CLIP架构

更直白来讲,对CLIP架构引入类似于MAE的思路,于是FLIP架构也就变成了这样。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

这样一来,既可以减少计算量,提高训练效率,相同的时间可以进行更多图像-文本样本学习;每次迭代还能可对比更多样本,但保持相似的内存占用率。

具体来说,本文采用的是ViT作为图像编码器。

图像首先被划分为一个不重叠的网格,并随机地遮蔽掉大部分的区块。本文采用的遮蔽比例为50%75%。随后ViT只对可区块编码,时间复杂度相应降低为原来的二分之一(50%),或者四分之一(75%)。

同样的方式还可以用到文本遮蔽上。不过研究者认为由于文本编码器比较小,带来的加速效果并不能带来整体的增益。

不过跟MAE不同的是,此次FLIP并没有对被遮蔽的图像内容重建,也没有解码器。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

MAE架构

因为他们发现,放弃解码器和重建可以产生更好的速度。虽然编码器在被遮蔽的图像上进行了预训练,但它可以直接应用在完整图像上。

相同性能,速度为3.7x

总的来看,采用了mask机制的FLIP相比CLIP,在准确性和训练时间上取得了平衡,即性能在训练时间大幅减少的情况下,不降反升。

——尤其是在mask程度高达50%和75%的情况下。

其中,当mask=75%时,FLIP达到和基线模型CLIP相同的性能时,训练速度是它的3.7x。

这也就意味着,CLIP花费大约2500 TPU-days训练完成时,FLIP可以大约节省1800 TPU-days。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

这一结果在ImageNet-1K验证集上的Zero-shot transfer任务中得出,每个不同mask比例的模型都在LAION-400M上进行了6.4、12.8或32个epoch的训练,包含了4亿个图像-文本对。

接着,采用64k batch,50% mask比和unmasked微调的FLIP,在ImageNet-1K分类数据集上的三个主要指标上也获得了比CLIP更好的性能。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

注:是比他们复现出来的CLIP更好,和原始CLIP还差一点,当然,两者数据集不一样。

而在基于各类数据集的大量下游任务中(包括零样本分类、文字/图片检索等),FLIP同样表现出了优势,且基本全线碾压了CLIP(见绿色高亮,几乎点满)。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...
何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

最后,对于FLIP模型的scale up也是一大看点,结果可圈可点。

可以看到,当增加FLIP的模型大小和数据规模时,FLIP继续涨点,尤其增加模型大小时最为明显(最左)。不过单纯增加训练时长基本没用(最右)。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

从下表我们还能看出,模型大小和数据规模一起增加,效果又上了一个新高度。证明大模型+大数据就是好使。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

何恺明担任通讯作者

FLIP一共5位作者。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

3位共同一作,都是FAIR研究工程师。其中:

Li Yanghao,本硕毕业于北京大学计算机科学专业,已发表多篇顶会;

Fan Haoqi,毕业于CMU机器人学院;

Hu Ronghang,本科毕业于清华,2020年博士毕业于UC伯克利。

通讯作者有两位:

何恺明和他的同事Christoph Feichtenhofer,拥有同等指导贡献。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

One More Thing

值得一提的是,有细心的网友统计了近三年CVPR引用量最高的论文(截至2022年11月),分别是Moco(2020)、SimSiam(2021)、MAE(2022)。

何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

而这三篇文章唯一的共同作者就是何恺明,其中两篇还是一作,且都是与自监督学习相关。据谷歌学术统计,目前他们的引用量分别为5224、1374、834。

恺明大神还是一如既往地稳定发挥呀~

对于他们团队的最新力作,你怎么看?

比如,为什么对图像patch进行了随机mask,反而让模型性能不降反升呢?

论文链接:
https://arxiv.org/abs/2212.00794
参考链接:
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398

MEET 2023 大会定档!

嘉宾全阵容公布

量子位「MEET2023智能未来大会」正式定档12月14日!嘉宾全阵容已于近日正式公布。

20位来自智能科技产业、科研、投资领域具有代表性企业的直接负责人,将在MEET大会上共同交流、思维碰撞。期待与大家共聚MEET2023!

点这里关注我 👇 记得标星噢 ~文章来源地址https://www.toymoban.com/news/detail-503450.html

到了这里,关于何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【AIGC】CLIP

      对比学习: Clip使用对比学习来训练模型。对比学习的目标是通过将正样本(相似的图像和文本对)与负样本(不相似的图像和文本对)进行比较,从而使模型学会区分不同样本之间的差异。这有助于模型学到更具泛化性的表示。 双向编码器: Clip包括两个部分的编码器,

    2024年01月25日
    浏览(35)
  • AIGC系列之:CLIP和OpenCLIP

    目录 模型背景 CLIP模型介绍 相关资料 原理和方法 Image Encoder Text Encoder 对比学习 预训练 Zero Shot预测 优势和劣势 总结 OpenClip模型介绍 相关资料 原理 结果 用法 模型总结 Stable Diffusion主要由三个核心模块组成: Text Encoder(文本编码器) Image Information Creator(图像信息生成器)

    2024年02月04日
    浏览(30)
  • AIGC学习笔记——CLIP详解加推理

    clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero-Shot Learning,简称ZSL)假设斑马是未见过的类别,但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色,通过这些描述推理出

    2024年03月10日
    浏览(40)
  • AIGC神器CLIP:技术详解及应用示例

    编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafritsas的这篇文章,为我们详细介绍了CLIP是如何工作的,同时提供一些编码示例。 以

    2024年02月11日
    浏览(43)
  • AIGC零基础30天学习——CLIP模型

            Contrastive Language-Image Pre-training(以下简称“CLIP”)是OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了目前最佳表现(SOT

    2024年02月09日
    浏览(30)
  • 【AIGC】10、Chinese CLIP | 专为中文图文匹配设计

    论文:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 代码:https://github.com/OFA-Sys/Chinese-CLIP 出处:阿里达摩院 时间:2022.11 贡献: 提出了 Chinese CLIP,是经过在大尺度中文图像-文本对儿的两阶段预训练 CLIP 的成功极大地促进了对比学习在视觉-语言模型预训练上的研究和应用

    2024年02月13日
    浏览(27)
  • CLIP Surgery论文阅读

    M = norm ⁡ ( resize ⁡ ( reshape ⁡ ( F i ˉ ∥ F i ‾ ∥ 2 ⋅ ( F t ∥ F t ‾ ∥ 2 ) ⊤ ) ) ) M=operatorname{norm}left(operatorname{resize}left(operatorname{reshape}left(frac{boldsymbol{F}_{bar{i}}}{left|boldsymbol{F}_{underline{i}}right|_{2}} cdotleft(frac{boldsymbol{F}_{t}}{left|boldsymbol{F}_{underline{t}}right|_{2}}

    2024年03月16日
    浏览(36)
  • CLIP 论文解读

    现有的计算机视觉系统用来预测一组固定的预订对象类别,比如ImageNet数据集有1000类,CoCo数据集有80类。这种受限的监督形式限制了模型的通用性和可用性。使用这种方法训练好的模型对训练过程中出现的对象类别有很好的识别效果,但是对训练过程中未出现的类别,识别效

    2024年02月04日
    浏览(34)
  • AIGC零基础30天学习——CLIP与zero-shot

           在前面对CLIP的学习中,对 zero-shot prediction 环节一直有一些疑惑,zero-shot是什么,它该如何进行操作?     zero-shot是指零样本学习,和zero-shot相关联的概念包括many-shot、few-shot和one-shot,这些其实都是从训练集样本类型、测试集样本类型和对应的样本数量角度进行划分

    2024年02月09日
    浏览(29)
  • 【AIGC】7、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

    论文:Learning Transferable Visual Models From Natural Language Supervision 代码:https://github.com/OpenAI/CLIP 官网:https://openai.com/research/clip 出处:OpenAI 时间:2021.02 贡献: 基于图文匹配,不受限于分类类别,有很强的扩展性!!!这是 CLIP 最炸裂的地方,彻底摆脱了预定义标签列表了 不仅仅

    2024年02月08日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包