ChatGPT-4 Vision 催生万亿产业

这篇具有很好参考价值的文章主要介绍了ChatGPT-4 Vision 催生万亿产业。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 

(做了多年视觉分析,谨以忐忑的心情写下本文)

2023年9月25日,微软发布ChatGPT-Vision的研究报告(文章末尾有下载地址),同日openai发布重要更新:听,说,看。

2023年10月3日,openai发布Dall-E3.0。距离ChatGPT获得全部人类技能,还差触觉,嗅觉和味觉。

听,说基于文本,Dall-E有Midjounery大家已经熟悉了。今天重点说下Vision,视觉。大家可能低估了这个更新带来的飓风。

vision是识别图片,将图片化为数据(1和0)。基于大模型,可以理解图片中的内容,再结合ChatGPT自身的数据集(所有互联网上的人类知识)。能完成人类做得到和做不到的事。可以输出文本,语音和修改后的图(Dall-E)。

这段时间,国外网友脑洞大开,尝试了无数场景,结合微软的报告。给大家举例,看看我是不是标题党。

1、教学

网友Peteryang 使用ChatGPT Vison给学生演示人体结构,从大脑到心脏都逐一讲解。只需要一句话提问:“我现在一年级。给我解释一下。” 

 

2、停车

在国外停车牌,有时候异常复杂。需要停下来看清楚,才知道自己停去哪里。同样是Peteryang,拿出手机拍照,一句话解决「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」

 

3、饮食健康

网友Mckay Wrigley拍照,要求分析食物中的热量,蛋白,脂肪等等。再结合食谱建议,就可以管理起来自己的健康。Mckay Wrigley还要求输出Json数据,可以用来编程。

 

4、故事脚本分析

网友Mckay Wrigley,还让Vison分析《盗梦空间》的设计图标,ChatGPT对图表的结构和流程,有深入的理解,可以连贯的拼凑在一起。

 

5、图片对照

网友Andrew Morgan,用Vision做图片对比,也就是【找不同】的玩法。

 

6、学术研究

教授Ethon Mollick 让Vision识别手稿,识别率 很高,并且还进行了文本推理。

 

7、室内设计

网友Pietro Schirano拍照,要求Vision 给出设计上的建议。发现其从颜色到触感都非常出色。

 

8、摄影建议

还是Pietro,要求Vision对一张照片,给出建议。回复看来很专业,还给出参数建议。

 

9、看照片说位置

将测试照片的GPS信息去掉,让VIsion凭一张照片找出位置。

 

 

 

 

10、医疗-看X片

 

 

 

 

还有很多其他的案例。充分的展示了ChatGPT Vision的能力。我们回答上面的问题,Vision能价值万亿吗?随意展开2个例子吧。

1、监控

所有装有监控的地方,都有识别的需求。传统的方式是,先训练,再识别。标注了的能识别,未标注的识别不了。现在完全不同了。人类能识别的,都能识别。还能推理。

比如,公安系统。小偷进去时候空手,出来多了个包。在人群里找出来,就是一句话的事情了。

或者一张照片找出嫌犯的位置,就可以不用麻烦水哥了。

交通系统,更具现有人流,车流预测堵车。识别安全头盔等等。做过相关项目的公司,就明白这里面带来的冲击。

2、医疗

人眼有时候,受视力和光线的影响,看不清微小的细节。同时,知识储备无法和AI相比。用vision看x片,给出所有的细节和建议。可能是未来所有医生每天都要做的事。

另外,会诊,医疗事故判定,医学科研,药物研究都是不可或缺的。

其他的比如,设计,教学,编程,导游。无法想象它到底可以颠覆多少行业。

本质上,ChatGPT Vision和这么多年来的视觉分析有本质的不同。他不需要预先标注训练。其次,他有海量的知识背景。这让他无比强大。仿佛上帝视角。

我们拭目以待把。技术背后的价值,投资人应该更加清楚,万亿是夸张,但谁也无法否定。因为不可估量。

目前ChatGPT Vision只有北美地区开放。国内想试用ChatGPT的话,给大家推荐我在用的这个吧。http://www.ppword.cn

手机上使用,搜索ppword,也可以点击下方公众号。(有个细小的行业,能马上被颠覆,有兴趣的加ppword网站上的群)

微软测评报告下载地址:https://arxiv.org/pdf/2309.17421.pdf 文章来源地址https://www.toymoban.com/news/detail-711367.html

到了这里,关于ChatGPT-4 Vision 催生万亿产业的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【计算机视觉】Vision Transformer (ViT)详细解析

    论文地址:An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale code地址:github.com/google-research/vision_transformer Transformer 最早提出是针对NLP领域的,并且在NLP领域引起了强烈的轰动。 提出ViT模型的这篇文章题名为 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

    2024年02月04日
    浏览(48)
  • 我带着 chatGPT 做了 2800 道算法题

    学算法认准  labuladong 后台回复课程 查看精品课 点击卡片可搜索文章👇 在线学习网站: https://labuladong.github.io/algo/ 老读者都知道,以前我的算法教程主要使用 Java 语言。但是现在有了 chatGPT 的帮助,《labuladong 的刷题全家桶》已经全面支持了 Java/C++/Python/Golang/JavaScript 等所有

    2023年04月26日
    浏览(52)
  • 使用Google Vision API进行计算机视觉图像创意分析

    介绍 计算机视觉可以用来从图像、视频和音频中提取有用的信息。它允许计算机看到并理解从视觉输入中可以收集到什么信息。在接收到视觉输入后,它可以在图像中收集有价值的信息,并确定必须采取的下一步。 Google Vision API是一种Google云服务,它允许使用计算机视觉从图

    2024年02月06日
    浏览(55)
  • 【ChatGPT实战】9.使用ChatGPT-+-Midjourney-帮忙做了个App

    在当今数字化的时代,手机App已经成为人们生活的重要组成部分。开发一个优秀的手机App需要付出大量的时间和精力,特别是在设计和开发阶段。但是现在我们可以借助工具和技术来协助自己简化这个过程。 在这篇教程中,我将介绍如何使用ChatGPT和Midjourney来帮助我们开发一

    2024年02月09日
    浏览(49)
  • 我做了一个 VSCode 插件版的 ChatGPT

    大家好,我是风筝 其实很早之前就想学学 VSCode 插件开发了,但是又不知道做什么,加上我这半吊子前端水平,迟迟没有动手。 最近 ChatGPT 火的一塌糊涂,我也一直在用,真的非常好用,有些问题之前需要 Google 搜索,现在用 ChatGPT 基本上都能直接解决,效率提升了不少。

    2024年02月03日
    浏览(52)
  • 【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习

    论文地址: Vision Mamba 在这篇文章,我们展示对于视觉表示学习,不再依赖自注意力,提出一个新的泛用的视觉backbone基于双向Mamba块,通过位置嵌入来标示图片序列,通过双向状态空间模型压缩视觉表示。结果表示,Vim有能力解决在高分辨率图片上应用tranformer类型所导致计算

    2024年03月21日
    浏览(51)
  • 将Apple Vision Pro和visionOS与计算机视觉结合使用

    在2023年6月5日的WWDC大会上,苹果宣布推出多年来最大规模的硬件和软件组合产品。今年的“One more thing”(“还有一件事”)发布是苹果视觉专业版(Apple Vision Pro),这是一款集成了苹果生态系统的新型空间计算头戴式设备。 苹果视觉专业版是一个垂直整合的硬件和软件平

    2024年02月08日
    浏览(47)
  • 【AIGC】16、Vision-Language 模型在视觉任务中的调研

    近来,一种新的学习范式 pre-training → Finetuning → Prediction 取得了很大的进步,并且在视觉识别任务中取得了很好的效果。 使用 pretrained 模型来学习丰富的知识,可以加速模型对下游任务的收敛速度并且提高效果 但是,这种学习范式在下游任务仍然需要很多带标注的数据,如

    2024年02月11日
    浏览(92)
  • 图解Vit 2:Vision Transformer——视觉问题中的注意力机制

    上节回顾 在Transformer之前的RNN,其实已经用到了注意力机制。Seq2Seq。 对于Original RNN,每个RNN的输入,都是对应一个输出。对于original RNN,他的输入和输出必须是一样的。 在处理不是一对一的问题时,提出了RNN Seq2Seq。也就是在前面先输入整体,然后再依次把对应的输出出来

    2024年02月17日
    浏览(46)
  • 【多模态】13、Vision-Language 模型在视觉任务中的调研

    近来,一种新的学习范式 pre-training → Finetuning → Prediction 取得了很大的进步,并且在视觉识别任务中取得了很好的效果。 使用 pretrained 模型来学习丰富的知识,可以加速模型对下游任务的收敛速度并且提高效果 但是,这种学习范式在下游任务仍然需要很多带标注的数据,如

    2024年02月17日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包