多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

这篇具有很好参考价值的文章主要介绍了多模态大模型系列论文(ALBEF、BLIP、BLIP-2)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. ALBEF: ALign the image and text BEfore Fusing

1.1 论文与代码链接:

​​​​​​https://arxiv.org/abs/2107.07651

GitHub - salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method

多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

1.2 目标任务:

 视觉-文本 融合任务,如图文检索、视觉问答、NLVR (natural language vision reasoning)等

1.3 当前方法问题:

1)没有对齐视觉的 tokens 和 文字的 tokens, 因此给 多模编码器进行图文交互学习时带来挑战

2)训练多模模型,利用到了互联网上爬取的数据,这些数据中往往存在大量噪声,传统的图文特征融合训练模式(如 MLM, masked language modeling) 可能过拟合到噪声文本上,从而影响模型的泛化性能。

1.4 本文解决方案:

1) 通过跨模态 attention 的方式引入对比损失,在图文特征融合前对齐图像和文本表征,相对与大多数传统方案来说,不需要在高清图片上进行框级别的标注。

2)提出一种 动量蒸馏 (momentum distillation) 的方案,即通过自训练(self-training)的方式从动量模型提供的伪标签中进行学习。

在训练过程中,通过参数移动平均的方式更新动量模型,并利用动量模型生成伪标签(pseudo-targets) 作为额外的监督信息。利用动量蒸馏的方式,模型将不在惩罚模型合理的输出,即使这个输出与网络标签不一致,提升从网络噪声数据中学习的能力。

1.5 实验结果:

1)在图文检索任务中,本方案优于在大规模数据集中预训练的方案(CLIP & ALIGN)

2) 在 VQA 和 NLVR 任务中,本方案相对 SOTA 算法(VILIA)分别获得了 2.37% 和 3.84% 的指标提升,而且获得了更快的推理速度。

2. BLIP (Bootstrapping Language- Image Pretraining)

2.1 论文与代码链接:

https://arxiv.org/abs/2201.12086

GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

  

2.2 目标任务:

 视觉-文本 融合任务,如图文检索、视觉问答、NLVR (natural language vision reasoning)等

2.3 当前方法问题:

1)当前 视觉-语言 预训练(VLP)推动了 视觉语言预训练任务的性能,然而大多数现有的预训练模型或者擅长基于理解的任务(分类)或者基于生成的任务之一。encoder-based 架构不擅长生成类任务,encoder-decoder 架构不擅长分类相关任务(如 图文跨模态检索)

2)当前 VLP 模型的性能提升依赖于扩大图文对训练集,这些图文对通常是从互联网上爬取的,所以噪声相对较大。

2.4 本文解决方案:

提出一种新的 VLP 框架,可以在视觉-语言的 理解任务 和 生成任务 之间灵活转换,而且可以通过booststraping 的方式有效利用噪声数据,即构造了一个 captioner 用于生成captions,一个 filters 移除噪声 captions。具体如下:

1)提出一种多模混合 encoder-decoder 架构 (MED):可以作为独立的编码器,也可以分别作为 基于图像的文本编码器和解码器。通过联合三种视觉-语言 的目标进行学习:图文对比学习、图文匹配 和 基于图像的语言建模(image-conditioned language modeling)。

2.5 实验结果:

1)在图文检索任务中,本方案相较 SOTA, top1 recall 提升了 2.7%

2)在 image caption 任务中,CIDEr 指标提升 2.8%

2) 在 VQA 本方案相对 SOTA 算法获得了 1.6% 的VQA score 指标提升

3. BLIP -2 (Bootstrapping Language- Image Pretraining)

3.1 论文与代码链接:

https://export.arxiv.org/pdf/2301.12597v1.pdf

https://github.com/salesforce/LAVIS/tree/main/projects/blip2

多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

3.2 目标任务:

 视觉-文本 融合任务,如图文检索、视觉问答、NLVR (natural language vision reasoning)等

3.3 当前方法问题:

由于模型越来越大,VLP 预训练成本变得越来越高。

3.4 本文解决方案

充分利用大模型原始能力,不做预训练,而通过设计一个轻量级的 Querying transformer(Q-former) 连接视觉大模型和语言大模型。Q-former 通过两阶段方式进行训练:

阶段 1:固定图像编码器,学习视觉-语言(vision-language)一致性的表征

阶段 2: 固定语言大模型,提升视觉到语言(vision-to-language)的生成能力

参考文献:文章来源地址https://www.toymoban.com/news/detail-477486.html

  1. Li, Junnan, et al. “Align before Fuse: Vision and Language Representation Learning with Momentum Distillation.” in NeuraIPS 2021.
  2. Li, Junnan, et al. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, in ICML 2022.
  3. Li, Junnan, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, arxiv preprint 2023.

到了这里,关于多模态大模型系列论文(ALBEF、BLIP、BLIP-2)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于LLMs的多模态大模型(Flamingo, BLIP-2,KOSMOS-1,ScienceQA)

    前一篇博客已经整理了不训练视觉模型的文章们: 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC) 本篇文章将介绍一些需要训练视觉编码器来适配多模态大模型的工作们,这也是目前最为流行的研究思路。 其实早在2021年DeepMind发表Frozen的时候就已经有了few-shot甚至

    2024年02月06日
    浏览(37)
  • VLM 系列——Instruct BLIP——论文解读

        Instruct BLIP 全称《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。

    2024年01月23日
    浏览(34)
  • 【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练

    论文:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2 在线体验:https://huggingface.co/Salesforce/blip2-opt-2.7b 出处:Salesforce Research | 和 BLIP 是同一团队 时间:2023.01 线上体验示例:将图拖拽至此即可

    2024年02月16日
    浏览(36)
  • 【自然语言处理】【多模态】ALBEF:基于动量蒸馏的视觉语言表示学习

    ALBEF:基于动量蒸馏的视觉语言表示学习 《Align before Fuse:Vision and Language Representation Learning with Momentum Distillation》 论文地址:https://arxiv.org/pdf/2107.07651.pdf 相关博客: 【自然语言处理】【多模态】多模态综述:视觉语言预训练模型 【自然语言处理】【多模态】CLIP:从自然语

    2024年02月03日
    浏览(112)
  • BLIP2原理解读——大模型论文阅读笔记二

    论文:https://arxiv.org/abs/2301.12597 代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2 端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行

    2024年02月09日
    浏览(30)
  • 分享AIGC前沿论文系列二 面向区域级图像理解的端到端多模态大模型GPT4RoI

    面向区域级图像理解的端到端多模态大模型 带来了超越图像级理解的全新对话和交互体验 进行丝滑的人机互动,不仅仅是文字级别的人机互动 本文提出对感兴趣区域进行Instruction Tuning,并提出GPT4RoI: 一种区域级视觉-语言模型,带来了超越图像级理解的全新对话和交互体验,

    2024年02月15日
    浏览(28)
  • 多模态应用展望——看图聊天、BLIP2

    BLIP2 是 salesforce 公司开源的多模态模型,其大致的原理,可以类比看图写作,当前 AI 在文生图模式之外,也支持图生文模式,可以将照片中的核心元素识别出来。然后把这些元素作为上下文,交给 ChatGPT 类似的大语言模型进行扩展写作和对话。 BLIP2 在线试用地址为:https:/

    2024年02月06日
    浏览(26)
  • 多模态系列论文--CoCa 详细解析

    论文地址:CoCa: Contrastive Captioners are Image-Text Foundation Models 代码地址:CoCa CoCa代表Contrastive Captioners的缩写,代表模型用两个目标函数训练出来的,一个是Contrastive Loss,一个是Captioning Loss。本文因为数据集更大,模型也更大,所以它的效果很好,在多模态所有的任务均SOTA,而

    2024年02月15日
    浏览(23)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(33)
  • 【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述

    论文:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 代码:https://github.com/salesforce/BLIP 线上体验:https://huggingface.co/spaces/Salesforce/BLIP 出处:ICML 2022 | Salesforce Research 时间:2022.02 贡献: 提出了一个可以联合训练理解和生成任务的多模态混合模

    2024年02月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包