VLM 系列——Instruct BLIP——论文解读

10月前作者：TigerZ* 分类：Toy博客阅读(56) 违法举报

这篇具有很好参考价值的文章主要介绍了VLM 系列——Instruct BLIP——论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、概述

1、是什么

Instruct BLIP 全称《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代码、视觉定位、JSON mode等。）

整体架构沿用BLIP2，在Q-former中多加入了文本prompt token来和图片进行交互。构造一个指令数据集，只训练q-former。

2、亮点

*对视觉语言指令调优进行了全面而系统的研究。将26个数据集转换为指令调优格式（13个用于指令调优，13个用于zero-shot评估），并将其分为11个任务类别（保留了四个完整的任务类别，以便在任务水平上进行zero-shot评估）。

*提出了指令感知的视觉特征提取，这是一种新的机制，可以根据给定的指令灵活地提取信息丰富的特征。

*使用两个LLM家族评估并开源了一套InstructBLIP模型：FlanT5、Vicuna。

PS

这里要注意其实BLIP2的Q-former 也是有文本输入的，也可以作为prompt，只是可能没有专门经文章来源地址https://www.toymoban.com/news/detail-816896.html

到了这里，关于VLM 系列——Instruct BLIP——论文解读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

多模态大模型系列论文（ALBEF、BLIP、BLIP-2）

视觉-文本融合任务，如图文检索、视觉问答、NLVR （natural language vision reasoning）等 1）没有对齐视觉的 tokens 和文字的 tokens, 因此给多模编码器进行图文交互学习时带来挑战 2）训练多模模型，利用到了互联网上爬取的数据，这些数据中往往存在大量噪声，传统的图文特征

2024年02月08日
浏览(46)
最近读的AIGC相关论文思路解读

提示：本博客是作者本人最近对AIGC领域相关论文调研后，临时记录所用，所有观点都是来自作者本人局限理解，以及个人思考，不代表对。如果你也正好看过相关文章，发现作者的想法和思路有问题，欢迎评论区留言指正！既然是论文阅读分享，首先，你需要有一些AIGC基础

2024年02月10日
浏览(34)
【计算机视觉 | 目标检测】Grounding DINO：开集目标检测论文解读

介绍一篇较新的目标检测工作：论文地址为： github 地址为：作者展示一种开集目标检测方案： Grounding DINO ，将将基于 Transformer 的检测器 DINO 与真值预训练相结合。开集检测关键是引入 language 至闭集检测器，用于开集概念泛化。作者将闭集检测器分为三个阶段，提出一种

2024年02月10日
浏览(61)
AIGC系列之：DDPM原理解读（简单易懂版）

目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式总结本文部分内容参考文章：https://juejin.cn/post/7251391372394053691，https://zhuanlan.zhihu.com/p/563661713，感谢博主的辛苦工作，本文尽量去繁就简去理解DDPM的原理

2024年04月17日
浏览(32)
《万字长文带你解读AIGC》系列之入门篇

欢迎关注『CVHub』官方微信公众号！随着 ChatGPT 的病毒式传播，生成式人工智能 ( AIGC , a.k.a AI-generated content ）因其分析和创造文本、图像、视频以及其他方面的出众能力而俨然成为当下最火热的投资赛道，没有之一。在如此铺天盖地的信息轰炸下，每个人似乎难以置身

2024年02月09日
浏览(45)
《万字长文带你解读AIGC》系列之技术篇

欢迎关注『CVHub』官方微信公众号！ Welcome to back! 在《万字长文带你解读AIGC入门篇》一文中，我们详细为大家介绍了 AIGC 的相关概念、背景及其如此火爆的原因，接下来我们将进一步深入探讨AIGC背后的技术栈。作为本系列的技术篇，将从多个角度来介绍 AIGC 的技术栈，其中

2024年02月09日
浏览(36)
【CVHub】《万字长文带你解读AIGC》系列之入门篇

本文来源“ CVHub ”公众号，侵权删，干货满满。作者丨派派星来源丨CVHub 原文链接：《万字长文带你解读AIGC》系列之入门篇图0 随着 ChatGPT 的病毒式传播，生成式人工智能 ( AIGC , a.k.a AI-generated content ）因其分析和创造文本、图像、视频以及其他方面的出众能力而俨

2024年02月15日
浏览(33)
【计算机视觉 | 目标检测】Open-Vocabulary DETR with Conditional Matching论文解读

论文题目：具有条件匹配的开放词汇表DETR 开放词汇对象检测是指在自然语言的引导下对新对象进行检测的问题，越来越受到社会的关注。理想情况下，我们希望扩展一个开放词汇表检测器，这样它就可以基于自然语言或范例图像形式的用户输入生成边界框预测。这为人机交

2024年01月21日
浏览(42)
GPT系列论文解读：GPT-2

GPT（Generative Pre-trained Transformer）是一系列基于Transformer架构的预训练语言模型，由OpenAI开发。以下是GPT系列的主要模型： GPT：GPT-1是于2018年发布的第一个版本，它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。 GPT-2：GPT-2于2019年发布

2024年02月07日
浏览(59)
轨迹预测论文解读系列——几种经典的网络

首先问大家一个问题，什么是自动驾驶车辆的最大挑战？答案是理解行人的运动并且预知行人之后的轨迹。人类的运动可以被认为是多模态性的，即人类有可能在任何给定的时刻向多个方向移动。而这种行为是自动驾驶汽车面临的最大挑战之一，因为它们的行驶路线受人的影

2023年04月08日
浏览(35)