微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全

这篇具有很好参考价值的文章主要介绍了微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文:微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全 - 哔哩哔哩

编者按:这篇文章深入研究了GPT-4V的用法、基本功能,用较大篇幅介绍了GPT-4V在遵循文字说明、视觉指向和视觉参考提示、视觉+文本提示等方面展示出的强大潜力。详细使用说明及渠道参考原文:https://arxiv.org/abs/2309.17421

多模态王炸大模型GPT-4V,166页“说书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

有网友感慨:这哪里是论文,这简直快成一本166页的小书了。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?

这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识

图像识别

最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

左:纽约时代广场,右:京都金阁寺

不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

机器翻译,仅供参考

不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

甚至是手写的数学公式:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

图像推理

前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

图片标注

除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

动态内容分析

除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

甚至是预测接下来会发生什么:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

“现场学习”

GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt

GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔

这篇论文的作者一共有7位,均为华人,其中6位是核心作者。

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全,大模型,aigc,人工智能,chatgpt文章来源地址https://www.toymoban.com/news/detail-762811.html

到了这里,关于微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 外卖项目需求说明书

    三、需求规格说明书 1 .引言 1.1 编写目的 1.2 项目背景 1.3 定义 1.4 参考资料 2 .任务概述 2.1 目标 2.2 运行环境 2.3 条件与限制 3 .数据描述 3.1 静态数据 3.2 动态数据 3.3 数据库介绍 3.4 数据词典 3.5 数据采集 4 .功能需求 4.1 功能划分 4.2 功能描述 5 .性能需求 5.1 数据精确度

    2024年02月06日
    浏览(44)
  • GitBlit使用说明书

    目录 1. 概述 1.1 关于版本控制 1.2 Git是什么 1.3 GitHub Flow 1.4 目的 2. Scrum如何使用Git 2.1 Scrum使用githup flow 2.2 分布式工作流的选择 2.2.1 集中式工作流 2.2.2 集成管理者工作流 2.2.3 主管与副主管工作流 2.3 GitBlit协作方式 2.4 GitBlit中的Tickets功能 3. Scrum结合GitBlit使用流程 3.1 初始化项

    2024年02月05日
    浏览(39)
  • 达尔优机械键盘说明书

    目录 型号 灯光组合键 长35 ㎝,宽13 ㎝,厚37 ㎜    

    2024年02月04日
    浏览(72)
  • 基于Python开发的DIY字符画程序(源码+可执行程序exe文件+程序配置说明书+程序使用说明书)

    本项目是一套基于Python开发的DIY字符画程序,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 本系统的软件开发及运

    2024年02月09日
    浏览(46)
  • 基于Python开发的玛丽大冒险小游戏(源码+可执行程序exe文件+程序配置说明书+程序使用说明书)

    本项目是一套基于Python开发的玛丽冒险小游戏程序,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 本系统的软件开发及运行环境

    2024年02月09日
    浏览(48)
  • 软件需求规格说明书-word

    软件需求规格说明书编写规范 1.项目背景 2.项目目标 3.系统架构 4.总体流程 5.名称解释 6.功能模块 软件开发全文档获取:软件项目开发全套文档下载_软件项目文档-CSDN博客

    2024年01月21日
    浏览(42)
  • 【产品规划】功能需求说明书概述

    2024年02月12日
    浏览(39)
  • 达尔优EK87键盘说明书

    EK87说明书+连接说明: **有线模式:**开关拨到最右边,然后插线连接电脑即可使用 2.4G **接收器模式:**开关拨到中间,然后接收器插入电脑USB接口即可使用 **蓝牙模式:**开关拨到最左边,然后按FN+Q长按三秒开始搜索,然后在电脑蓝牙里面配对好即可使用

    2024年02月04日
    浏览(43)
  • Linux中gdb使用说明书

    首先我们要使用gdb,必须明白gdb使用范围: 要使用gdb调试,必须在源代码生成二进制程序的时候, 加上 -g 选项(gcc/g++)   其次,我们就要来学习gdb使用的一些命令了:   最后,对于gdb使用情况,小编只能说大家可以尽力而为,毕竟将代码拷贝一份到VS等编译器上调试更加便捷

    2024年02月22日
    浏览(44)
  • 【Photoscan/Metashape 使用说明书笔记】

    Metashape 处理图像主要包括以下步骤: 将图像加载到 Metashape 中 图像质量检查,提前删除质量较差的影像 图像定向(空中三角测量/Structure from Motion) 构建密集点云 构建网格(3D 多边形模型) 生成纹理 导出结果 精度(Accuracy) 最高精度 源影像放大4倍 高精度 原分辨率 中等精度

    2024年02月16日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包