Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

这篇具有很好参考价值的文章主要介绍了Visual Instruction Tuning: 用LLaVA近似多模态GPT-4。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

©Paperweekly 原创 · 作者 | Chunyuan Li

使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4!

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:

  • 视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85%

  • 多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

▲ 构建一个包含30张未见图像的评估数据集,其中每个图像都关联着三种类型的指令:对话、详细描述和复杂推理。这样总共有90个新的语言-图像指令,我们进行了LLaVA和GPT-4的评测,并使用GPT-4将它们的结果从1到10进行评分。每种类型的总分和相对分数都被报告。LLaVA相对于GPT-4达到了85.1%的相对分数

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

项目主页 Project Page:

https://llava-vl.github.io/

论文 Paper:

https://arxiv.org/abs/2304.08485

代码 GitHub:

https://github.com/haotian-liu/LLaVA

演示 Demo:

https://llava.hliu.cc/

数据 Data (158K unique language-image instruction-following samples):

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

模型 Model (LLaVA-13B):

https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

学习总结

我总结目前为止的项目主要体验:

1. 多模态指令跟踪数据(Multimodal Instruction-following Data) 

毫无疑问,数据质量是这个项目的关键。我们大部分时间都在迭代新的指令数据。在这个数据为中心(Data-Centric)的项目中,需要考虑以下因素:图像的符号化表示(包括 Caption & Boxes)、ChatGPT vs GPT-4、提示工程(Prompt Engineering)等。 

看到学术圈一直以来没有这类数据,我们开源了我们最新一个版本的数据,希望能启发更多人沿着这个道路去探索。

2. 视觉对话(Visual Chat)

LLaVA 在涉及面向用户应用的聊天过程中表现出非常强的泛化能力,尽管只是在不到 1M CC/COCO 数据的训练下进行的。 

(a) 强大的多模态推理能力:GPT-4技术报告中的两个基于图像的推理示例,一度以为难以企及,利用LLaVA现在可以轻松复现。

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

(b) 强大的 OCR 文字识别能力:请看我刚刚制作的一些示例。它能识别 CVPR、我们的举办的 Computer Vision in the Wild (CVinW) Workshop 的标志的图片,和 LLaVA 本身相关的照片。

CVinW Workshop:

https://github.com/Computer-Vision-in-the-Wild

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

3. 科学问答(Science QA)

单独使用 LLaVA 实现了 90.92% 的准确率。我们使用仅文本的 GPT-4 作为评判者,根据其自身先前的答案和 LLaVA 的答案预测最终答案。这种“GPT-4 作为评判者”的方案产生了新的 SOTA 92.53%。令人惊讶的是,GPT-4 可以作为一种有效的模型集成方法!这些结果希望启发大家以后刷榜的时候,可以利用 GPT-4 这个神奇来集成不同方法。

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

总的来说,LLaVA 展示了一种非常有前途的方法,启发大家复现且超越 GPT-4 的多模态能力。

更多阅读

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4文章来源地址https://www.toymoban.com/news/detail-500746.html

到了这里,关于Visual Instruction Tuning: 用LLaVA近似多模态GPT-4的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【提示学习论文七】Visual Prompt Tuning论文原理

    这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。 VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。 目前适应预训练模

    2024年01月17日
    浏览(58)
  • 小白理解GPT的“微调“(fine-tuning)

    对于GPT-3.5,我们实际上并不能在OpenAI的服务器上直接训练它。OpenAI的模型通常是预训练好的,也就是说,它们已经在大量的语料上进行过训练,学习到了语言的基本规则和模式。 然而,OpenAI提供了一种叫做\\\"微调\\\"(fine-tuning)的方法,让我们可以在预训练好的模型基础上进行

    2024年02月04日
    浏览(45)
  • [论文阅读笔记76]GPT Understands, Too(P-tuning)

    题目 论文作者与单位 来源 年份 GPT Understands, Too 清华大学 Citations, References 论文链接:https://arxiv.org/pdf/2103.10385.pdf 论文代码: 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 微调大模型 采用传统微调的gpt在自然语言理解(NLU)方面未能取得良好的效果

    2024年02月09日
    浏览(51)
  • Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

    我们提出了一个多模态框架Video-LLaMA1,它使 大型语言模型(LLM)能够理解视频中的视觉和听觉内容 。视频-来自 冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练 。不像以前的工作, 补充线性最小二乘法只处理视觉或听觉信号 (朱等,2023;刘等,2023;Huang

    2024年02月03日
    浏览(47)
  • 微软出品,166页深度解读,多模态GPT-4V

    多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。 什么样的论文,能写出166页? 不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示; 还传授了一整套多模态大模型提示词使用技巧—— 手把手教你从0到1学会

    2024年02月07日
    浏览(39)
  • 一文看懂多模态大型语言模型GPT-4

    近日,OpenAI发布了最新版的生成预训练模型GPT-4。据官方介绍,最新一代的模型是一个大模型,性能比CPT-3.5强悍很多,不仅仅是接受图像、文本、代码等的输入输出,更多的是在很多专业领域表现出人类的水准水;与上一代不同的是它的核心技术是基于Transformer的自回归语言

    2023年04月08日
    浏览(40)
  • 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)

    当LLMs已经拥有了极强的对话能力后,如何使其拥有视觉和语音等多模态能力是紧接而来的热点(虽然GPT4已经有了),这个系列将不定期更新一些利用LLMs做多模态任务的文章。 直觉上,如果直接训练一个类似chatgpt架构的多模态框架一定会消耗非常大的数据和计算量,此外如

    2024年02月06日
    浏览(79)
  • 探索 GPTCache|GPT-4 将开启多模态 AI 时代,GPTCache + Milvus 带来省钱秘籍

    世界正处于数字化的浪潮中,为了更好理解和分析大量数据,人们对于人工智能(AI)解决方案的需求呈爆炸式增长。 此前,OpenAI 推出基于 GPT-3.5 模型的智能对话机器人 ChatGPT,在自然语言处理(NLP)领域掀起了新一轮的技术革命,引发了大家对大语言模型(LLM)的关注。同

    2024年02月14日
    浏览(76)
  • Claude3 AI系列重磅推出:引领多模态智能时代的前沿技术,超越GPT-4

    划重点: 🚀 Claude3系列发布,包括Haiku、Sonnet和Opus版本,Opus在多个领域超越GPT-4。 🌐 用户可免费使用Claude3Sonnet模型,支持中文,API已覆盖159个国家/地区。 📸 新增多模态图像识别提问功能,Claude3在数学与推理、可视化问答等方面超越GPT-4V。 (PS: wildcard已经可以订阅Clau

    2024年03月09日
    浏览(52)
  • 多模态大模型Claude 3正式接入集简云与语聚!对标GPT-4且支持中文

    自OpenAI发布GPT-4以来,引发了业务模式与应用使用的巨大变革,掀起了各大企业对于多模态大模型的研究热潮。3月初,AnthropicClaude在官网正式发布Claude 3系列多模态大模型,据了解,该模型在多个维度上超越了GPT-4,为您总结一波Claude 3的部分能力提升: OCR和复杂场景解析方面

    2024年03月17日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包