微软出品,166页深度解读,多模态GPT-4V

这篇具有很好参考价值的文章主要介绍了微软出品,166页深度解读,多模态GPT-4V。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

微软出品,166页深度解读,多模态GPT-4V,microsoft

值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

微软出品,166页深度解读,多模态GPT-4V,microsoft


有网友感慨:这哪里是论文,这简直快成一本166页的小书了。

微软出品,166页深度解读,多模态GPT-4V,microsoft

还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

微软出品,166页深度解读,多模态GPT-4V,microsoft

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?
这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”。

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

微软出品,166页深度解读,多模态GPT-4V,microsoft


2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

微软出品,166页深度解读,多模态GPT-4V,microsoft


3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

微软出品,166页深度解读,多模态GPT-4V,microsoft


4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:

微软出品,166页深度解读,多模态GPT-4V,microsoft


但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

微软出品,166页深度解读,多模态GPT-4V,microsoft


所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识
图像识别
最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

微软出品,166页深度解读,多模态GPT-4V,microsoft


而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

微软出品,166页深度解读,多模态GPT-4V,microsoft


除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

微软出品,166页深度解读,多模态GPT-4V,microsoft

​△左:纽约时代广场,右:京都金阁寺
不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

微软出品,166页深度解读,多模态GPT-4V,microsoft

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。


除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

微软出品,166页深度解读,多模态GPT-4V,microsoft


△机器翻译,仅供参考
不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

微软出品,166页深度解读,多模态GPT-4V,microsoft


除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

微软出品,166页深度解读,多模态GPT-4V,microsoft


甚至是手写的数学公式:

微软出品,166页深度解读,多模态GPT-4V,microsoft


图像推理
前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。

微软出品,166页深度解读,多模态GPT-4V,microsoft


如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。

微软出品,166页深度解读,多模态GPT-4V,microsoft
微软出品,166页深度解读,多模态GPT-4V,microsoft


上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。
微软出品,166页深度解读,多模态GPT-4V,microsoft


图片标注
除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

微软出品,166页深度解读,多模态GPT-4V,microsoft


GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

微软出品,166页深度解读,多模态GPT-4V,microsoft


动态内容分析
除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

微软出品,166页深度解读,多模态GPT-4V,microsoft


而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

微软出品,166页深度解读,多模态GPT-4V,microsoft


当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。
微软出品,166页深度解读,多模态GPT-4V,microsoft


甚至是预测接下来会发生什么:

微软出品,166页深度解读,多模态GPT-4V,microsoft


“现场学习”
GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:

微软出品,166页深度解读,多模态GPT-4V,microsoft


紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:

微软出品,166页深度解读,多模态GPT-4V,microsoft


然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。
微软出品,166页深度解读,多模态GPT-4V,microsoft


只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

微软出品,166页深度解读,多模态GPT-4V,microsoft


GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔
这篇论文的作者一共有7位,均为华人,其中6位是核心作者。
微软出品,166页深度解读,多模态GPT-4V,microsoft


项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。

微软出品,166页深度解读,多模态GPT-4V,microsoft


她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:
https://arxiv.org/abs/2309.17421

本文来源量子位,如有侵权请联系删除文章来源地址https://www.toymoban.com/news/detail-726932.html

到了这里,关于微软出品,166页深度解读,多模态GPT-4V的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-4V的图片识别和分析能力

    GPT-4V是OpenAI开发的大型语言模型,是GPT-4的升级版本。GPT-4V在以下几个方面进行了改进: 模型规模更大:GPT-4V的参数量达到了1.37T,是GPT-4的10倍。 训练数据更丰富:GPT-4V的训练数据包括了1.56T的文本和代码数据。 算法更先进:GPT-4V采用了新的算法,在生成文本、翻译语言、编

    2024年01月22日
    浏览(43)
  • 使用GPT-4V解决Pycharm设置问题

    pycharm如何实现关联,用中文回答 在PyCharm中关联PDF文件类型,您可以按照以下步骤操作: 1. 打开PyCharm设置:点击菜单栏中的“File”(文件),然后选择“Settings”(设置)。     2. 在设置窗口中,导航到“Editor”(编辑器)部分。 3. 在“Editor”下面,找到并点击“File Typ

    2024年02月05日
    浏览(25)
  • 微软出品的实用小工具

    分享一些微软出品的实用小工具,希望对大家有所帮助。 Sysinternals Suite是微软发布的一套非常强大的免费工具程序集,一共包括74个Windows工具,通过Sysinternals Suite能够帮助我们快速进行配置,优化,测试,检测和修复Windows操作系统故障。 Sysinternals Suite集合了来自 Windows Sys

    2024年02月04日
    浏览(34)
  • 【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

    论文:Learning Transferable Visual Models From Natural Language Supervision 代码:https://github.com/OpenAI/CLIP 官网:https://openai.com/research/clip 出处:OpenAI 时间:2021.02 贡献: 基于图文匹配,不受限于分类类别,有很强的扩展性!!!这是 CLIP 最炸裂的地方,彻底摆脱了预定义标签列表了 不仅仅

    2024年02月15日
    浏览(33)
  • An Early Evaluation of GPT-4V(ision)

    本文是LLM系列文章,针对《An Early Evaluation of GPT-4V(ision)》的翻译。 在本文中,我们评估了GPT-4V的不同能力,包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估GPT-4V的性能,我们手动构建656个测试实例,并仔细评估GPT-4V的结果。研究

    2024年02月08日
    浏览(43)
  • 微软官方出品的 “老爷机“ 专属系统,流畅到起飞

    想给家里的老爷机焕发新生,目前网络上精简系统挺多的,但是大多数都植入了广告/捆绑流氓软件,严重的甚至还有病毒啥的,所以一般我不推荐用网络上的修改版系统。 所以今天要给大家推荐微软官方出品的系统「Windows Thin PC」这是基于「Windows 7」制作的 精简 版本,主要

    2024年02月07日
    浏览(73)
  • 当GPT-4V充当机器人大脑,可能你都没AI会规划

    来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。 GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,

    2024年02月01日
    浏览(28)
  • 迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出

    PAPER CODE https://arxiv.org/pdf/2311.02782.pdf https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection         图1 GPT-4V在多模态多任务异常检测中的综合评估 在这项研究中,我们在多模态异常检测的背景下对GPT-4V进行了全面评估。我们考虑了四种模式:图像、视频、点云和时间序列,并

    2024年02月03日
    浏览(37)
  • 使用 GPT4V+AI Agent 做自动 UI 测试的探索

    从 Web 诞生之日起,UI 自动化就成了测试的难点,到现在近 30 年,一直没有有效的手段解决Web UI测试的问题,尽管发展了很多的 webdriver 驱动,图片 diff 驱动的工具,但是这些工具的投入产出比一直被质疑,自动化率越多维护成本越高,大部分都做着就放弃了,还有一部分在

    2024年02月04日
    浏览(31)
  • 推荐一款微软出品的开发神器,体验不输IDEA!

    VSCode全称Visual Studio Code,是微软开源的一款集成开发工具,目前在Github上已有135K+Star。VSCode号称能重新定义代码编辑器,不仅免费而且开源,能在多个平台上运行使用。VSCode对比IDEA不仅更轻量级,而且构建与响应速度也更快! 再来看下使用VSCode开发Java项目的效果图,界面还

    2024年02月05日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包