多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?

这篇具有很好参考价值的文章主要介绍了多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读

ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。

使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。

相关链接:ChatGPT can now see, hear, and speak

相关介绍:GPTV_System_Card.pdf

166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能:对于ChatGPT4,速度比纯文本中文Prompt慢40%左右。(注意,当从GPT4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)

花费:$20美元一月,限速3小时25条,尚未开放API

调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version

本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。

本文尝试从以下案例,对AI新里程碑LMM进行探索

TLDR总结

  1. ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。

  2. ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。

  3. ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。

(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)

(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)

适用场景

  1. 上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。

  2. 图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。

不适用场景

  1. 有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。

  2. 主体过多的复杂图片,如1.3节 前端网页代码复刻。

有潜力的场景

  1. 清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景

  2. 高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等

1.0 基础功能

多图片上下文识别能力

(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)

理解图中标识(如箭头)和强调(如红圈标红)

(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)

1.1 OCR功能(幻觉严重,中文效果差)

中文:电脑截图(准确)

中文:清晰中文表格图片(幻觉严重)

中文:有复杂信息的真实患者诊疗单(幻觉严重)

患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)

英文:准确:强对比度、轻微镜头畸变、中等像素噪声图片

阿拉伯语:部分准确:手写体转译英文

muin on X: "GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz" / X

1.2 医学诊断(高准确率)

肺部X光:肺炎判断(准确)

图像来源:GitHub - linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

图片输入

GPT-V判别结果:(肺炎, 0.7

1.肺炎:

◦置信度: 0.7

◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。

2.肺水肿:

◦置信度: 0.6

◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。

3.间质性肺病:

◦置信度: 0.5

◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。

4.支气管炎:

◦置信度: 0.4

◦原因: 慢性支气管炎可能导致一些观察到的不透明度。

5.结核病:

◦置信度: 0.3

◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。

6.肺癌:

◦置信度: 0.2

◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。

皮肤病:黑色素瘤判断(部分准确)

数据源:ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

图片输入

GPT-V判别结果(常见痣 0.6,黑色素瘤 0.3

  1. 黑色素细胞痣 (常见痣)

◦ 信心分数: 0.6

▪ 原因: 该皮损表现出与常见痣相似的特征,中央有深色区域。50岁左右的人群中很常见。

  1. 老年性角化病

◦ 信心分数: 0.4

▪ 原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。

  1. 异型痣

◦ 信心分数: 0.5

▪ 原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。

  1. 黑色素瘤

◦ 信心分数: 0.3

▪ 原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。

  1. 基底细胞癌

◦ 信心分数: 0.2

▪ 原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。

  1. 血管瘤

◦ 信心分数: 0.2

▪ 原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。

老年疣(0.7)

数据源:ISIC Archive

图片输入

GPT-V判别结果老年疣 0.7

  1. 老年疣 - 置信度:0.7

  2. 黑色素痣 - 置信度:0.5

  3. 基底细胞癌 - 置信度:0.4

  4. 日光角化症 - 置信度:0.4

  5. 鳞状细胞癌 - 置信度:0.3

该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。

其他脑部/胸部X光诊断(高准确率)

(绿色代表正确,红色代表错误,黄色代表幻觉)

1.3 高纬度识别能力(高质量,虽有幻觉问题)

大众点评/小红书文案

商品使用建议(左),商品销售文案(右)

车祸车辆识别

红色代表错误

理解流程图

解释笑话

商品新颖命名

电路图描述

地标描述

菜谱生成

分析球类运动局势/运动员姿势(存在幻觉)

Abran Maldonado on X: "One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh" / X

幻觉(该运动员使用的是反手Backhand,而非正手forehand):

识别电影/相机/景点等

给予用户产品安装/摄像等的建议和帮助

X: "ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb" / X

辅导扑克(存在幻觉)

网页截图到HTML代码(理解不足)

结果:

白板骨架到前端项目

Mckay Wrigley on X: "You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK" / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰图片的复杂理性/感性分析

Pietro Schirano on X: "This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS" / X

https://twitter.com/skirano/status/1706874309124194707?

Mckay Wrigley on X: "ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs" / X

主体多的复杂图片的复杂理性分析

Alex Northstar on X: "Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j" / X

https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足与风险

图片(含人眼不可见文字)的注入风险

(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)

(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)

不能使用于人脸识别

当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。

在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。

GPT-4V(ision) technical work and authors

作者:京东健康 李卓伦

来源:京东云开发者社区 转载请注明来源文章来源地址https://www.toymoban.com/news/detail-711087.html

到了这里,关于多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

    ✏️写作:个人博客,InfoQ,掘金,知乎,CSDN 📧公众号:进击的Matrix 🚫特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。 最近ChatGPT,想必大家已经是耳熟能详了,一度认为ChatGPT的到来是人工智能的奇点到来,那么到底ChatGPT是什么?为什么Chat

    2024年02月09日
    浏览(30)
  • GPT-4震撼来袭,高级推理能力远超ChatGPT

    GPT-4来了!这是一款被广泛期待的强大模型,它将成为人工智能领域的新里程碑。OpenAI老板Sam Altman直接开门见山地介绍说:这是我们迄今为止功能最强大的模型! GPT4一经发布,OPENAI和微软的股价都随之上涨,但谷歌的搜索引擎市场,却正在被这个可怕的对手一点点蚕食。 什

    2023年04月16日
    浏览(42)
  • ChatGPT重磅升级!集简云支持GPT4 Turbo Vision, GPT4 Turbo, Dall.E 3,Whisper等最新模型

    功能亮点 在此次模型升级中,带有视觉能力的 GPT-4 Turbo也备受瞩目,GPT-4-vision-preview已突破文本限制,可以直接在聊天框中分析图像照片,提供详细分析和读图功能。 可以预见的是,开放GPT-4图像输入能力,意味着AI向新领域的进军,也势必会引发业务模式与应用使用的巨大

    2024年02月04日
    浏览(49)
  • GPT-4 VS ChatGPT:训练、性能、能力和限制的探索

    GPT-4是一种改进,但是应该适当降低期望 当OpenAI在2022年末推出ChatGPT时,震惊了全世界。这个新的生成式语言模型预计将彻底改变包括媒体、教育、法律和技术在内的整个行业。简而言之,ChatGPT听起来可以颠复一切。甚至在我们没有时间真正设想一个ChatGPT后的世界之前,Op

    2023年04月11日
    浏览(35)
  • GPT-4V的图片识别和分析能力

    GPT-4V是OpenAI开发的大型语言模型,是GPT-4的升级版本。GPT-4V在以下几个方面进行了改进: 模型规模更大:GPT-4V的参数量达到了1.37T,是GPT-4的10倍。 训练数据更丰富:GPT-4V的训练数据包括了1.56T的文本和代码数据。 算法更先进:GPT-4V采用了新的算法,在生成文本、翻译语言、编

    2024年01月22日
    浏览(53)
  • 基于多模态视频分析的应用场景:从智慧城市到智能家居

    作者:禅与计算机程序设计艺术 引言 近年来,随着人工智能技术的飞速发展,各种基于大数据、云计算、物联网的智能应用逐渐成为人们生活中不可或缺的一部分。在众多智能场景中,视频分析应用作为一种重要的数据处理技术,在智慧城市建设、智能家居等领域具有广泛

    2024年02月16日
    浏览(50)
  • 大模型在数据分析场景下的能力评测

    “你们能对接国产大模型吗?” “开源的 LLaMA 能用吗,中文支持怎么样?” “私有化部署和在线服务哪个更合适?” 自 7 月 14 日发布 AI 数智助理 Kyligence Copilot 后,我们收到了很多类似上面的咨询,尤其是我们很多来自银行、保险等的大型金融客户。选择合适的大模型,是

    2024年02月08日
    浏览(39)
  • 最新商业级AI创作系统ChatGPT网站源码+支持GPT-4多模态模型+Midjourney绘画系统源码

    FireAI创作系统是一款基于OpenAI的ChatGPT进行开发的AI智能问答系统和Midjourney绘画系统。该系统支持OpenAI-GPT全模型和国内AI全模型的对接。经过整体测试,FireAI系统源码表现非常完美,可以说是国内目前最优秀的ChatGPT对接OpenAI软件系统之一。 接下来,我将为您提供一个详细的图

    2024年02月04日
    浏览(77)
  • 智能AI问答系统ChatGPT网站系统源码+Midjourney绘画+支持GPT-4-Turbo模型+支持GPT-4图片理解能力

    SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧!

    2024年02月04日
    浏览(72)
  • 体验ChatGPT在具体应用场景下的能力与表现——vuedraggable的move多次触发问题

    当下人工智能模型在满天飞,今天拿一个具体的应用场景,来体验下ChatGPT的能力与表现,看看是否能解决实际问题。 顺便填一下之前遇到的一个具体的坑:vuedraggable的move多次触发问题。 背景 背景是这样的,实现低代码开发平台过程中,使用vuedraggable组件,通过拖拽式操作

    2023年04月24日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包