计算机视觉 GPT-4V 它来了!

这篇具有很好参考价值的文章主要介绍了计算机视觉 GPT-4V 它来了!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT-4V(GPT-4Vision)(GPT-4V)是由OpenAI开发的一种多模型。GPT-4V允许用户上传一张图片作为输入,并提出关于该图片的问题,这种任务类型被称为视觉问题回答(VQA)。 GPT-4V自9月24日起推出,并将在OpenAI ChatGPT iOS应用和网络界面中提供。

一、前言

OpenAI 正在扩展其在人工智能(AI)领域的视野,推出了 GPT-4V 模型,该模型具有聆听、进行对话和解释图像的能力。

gpt4v和gpt4的区别,计算机视觉,人工智能

人工智能世界正在迅速发展,OpenAI 继续引领潮流。9月25日,该组织宣布对其 ChatGPT 系统进行了重大升级,引入了具有视觉功能的 GPT-4V 模型和多模态对话功能。

二、GPT-4V 深藏功与名

现在,ChatGPT 用户可以参与比以往更加动态和互动的对话。这一进步得益于两个 AI 模型,GPT-3.5 和 GPT-4,它们可以理解用简单语言表达的口头查询,并用五种不同的声音之一进行回应。

OpenAI 对这种新型多模态界面的可能性充满信心。现在,您可以在旅行时拍摄一个地标的照片,然后进行实时对话,了解它的有趣特征。在家里,拍摄冰箱和食品储藏室的照片,决定吃什么,并甚至请求逐步的食谱。晚餐后,帮助您的孩子解决一个数学问题,拍摄问题的照片,圈出问题,并让 ChatGPT 为您两个提供提示。

这一令人兴奋的改进紧随 OpenAI 发布 DALL-E 3 的脚步,DALL-E 3 是一种先进的图像生成系统,整合了自然语言处理功能,允许用户微调结果,并与 ChatGPT 合作创建图像提示。

DALL-E 3负责图像输出,GPT-4V负责图像输入,输入和输出相结合编排起来以后,文字和图像各种复杂的场景都会有了。

需要值得注意的是,GPT-4V 已于 2022 年完工,这OpenAI到底藏了多少好东西!

三、GPT-4V 示例

3.1 视觉问题回答

使用 GPT-4V 在理解给定图像中的上下文和关系方面的能力。

gpt4v和gpt4的区别,计算机视觉,人工智能

GPT-4V 成功地描述了这个图像为什么有趣,参考了图像中的各种组成部分以及它们之间的联系。值得注意的是,提供的梗图包含了文字,GPT-4V 能够阅读并用于生成回应。尽管如此,GPT-4V 确实犯了一个错误。模型称炸鸡被标记为“NVIDIA BURGER”,而不是“GPU”。

首先上传了一张美国一分钱的照片。GPT-4V 成功地识别出了硬币的来源和面额:

gpt4v和gpt4的区别,计算机视觉,人工智能

然后,我们上传了一张带有多个硬币的图像,并用这样的文字提示 GPT-4V:“我有多少钱?”

gpt4v和gpt4的区别,计算机视觉,人工智能

GPT-4V 能够识别出硬币的数量,但没有确定货币类型。在随后的问题中,GPT-4V 成功地识别出了货币类型:

gpt4v和gpt4的区别,计算机视觉,人工智能

3.2 光学字符识别(OCR)

探索GPT-4V 的 OCR 能力,上传图片识别轮胎上文字。

gpt4v和gpt4的区别,计算机视觉,人工智能

GPT-4V 无法正确识别轮胎图片中的序列号。模型的结果中,有些数字是正确的,但也出现了几个错误。

然后上传一个网页上的文本,并要求 GPT-4V 阅读图片中的文本。模型成功地识别出了图片中的文本。

gpt4v和gpt4的区别,计算机视觉,人工智能

GPT-4V 在将图片中的文字转换为文本中的单个字符方面做得非常出色。对于与从文档中提取文本相关的任务来说,这是一个有用的见解。

3.3 数学 OCR

数学 OCR 是一种针对数学方程的特殊 OCR 形式。数学 OCR 通常被视为一门独立的学科,因为 OCR 模型需要识别的语法涵盖了大量的符号。

我们向 GPT-4V 提出了一个数学问题。这个数学问题是从一个文档中截取的屏幕截图。问题涉及到根据两个角度计算拉链滑索的长度。我们附上图片,并提示“求解”。

gpt4v和gpt4的区别,计算机视觉,人工智能

gpt4v和gpt4的区别,计算机视觉,人工智能

模型识别出这个问题可以用三角函数解决,确定了要使用的函数,并逐步演示了如何解决这个问题。然后,GPT-4V 提供了问题的正确答案。

尽管如此,GPT-4V 系统卡片指出,模型可能会漏掉数学符号。不同的测试,包括手写在纸上的方程式或表达式的测试,可能显示出模型在回答数学问题方面的不足。

3.4 物体检测

物体检测是计算机视觉领域的基本任务。我们要求 GPT-4V 识别各种物体的位置,以评估其执行物体检测任务的能力。

我们上传的图片中,要求 GPT-4V 在图像中检测一条狗,并提供与狗的位置相关的 x_min、y_min、x_max 和 y_max 值。GPT-4V 返回的边界框坐标与狗的位置不匹配。

gpt4v和gpt4的区别,计算机视觉,人工智能

3.5 验证码(CAPTCHA)

我们决定使用验证码测试 GPT-4V,这是 OpenAI 在其研究中研究并在系统卡片中介绍的任务。我们发现 GPT-4V 能够识别出图像中包含验证码,但通常无法通过测试。在一个交通灯示例中,GPT-4V 没有勾选包含交通灯的一些框。

gpt4v和gpt4的区别,计算机视觉,人工智能

3.6 纵横字谜和数独

测试 GPT-4V 在纵横字谜和数独上的表现。

首先,我们向 GPT-4V 提供了一张纵横字谜的照片,并附上文字指示“解答”。GPT-4V 推断出图像中包含一个纵横字谜,并尝试提供一个解答。模型似乎正确阅读了线索,但误解了棋盘的结构。因此,提供的答案是错误的。

gpt4v和gpt4的区别,计算机视觉,人工智能

在我们的数独测试中,GPT-4V 也表现出了相同的局限性,它识别出了游戏,但误解了棋盘的结构,因此返回了不准确的结果:

gpt4v和gpt4的区别,计算机视觉,人工智能

四、其它产商最新动态

与此相关的 AI 新闻中,OpenAI 的竞争对手 Anthropic 最近宣布与亚马逊AWS达成合作,为云服务和 AI 模型定制领域的突破性发展铺平道路。

gpt4v和gpt4的区别,计算机视觉,人工智能

亚马逊表示,已同意向 AI 公司 Anthropic 投资高达 40 亿美元(292.5 亿元人民币),这是科技巨头最近为了在 AI 军备竞赛中获得优势而向初创公司投资的大手笔。

知情人士表示,亚马逊已承诺向成立仅两年的 Anthropic 投资 12.5 亿美元,视某些情况而定,这个数额可能会逐渐增加到 40 亿美元。

其中一名知情人士表示,作为协议的一部分,Anthropic 已同意将一定数量的资金花在亚马逊的云基础设施业务 AWS 上。这一安排的具体内容不得而知。

这是AWS抗衡Azure OpenAI 的强有力手段,比较令人期待。文章来源地址https://www.toymoban.com/news/detail-841982.html

到了这里,关于计算机视觉 GPT-4V 它来了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉(P2)-计算机视觉任务和应用

    在本文中,我们将探讨主要的计算机视觉任务以及每个任务最流行的应用程序。         图像分类是计算机视觉领域的主要任务之一[1]。在该任务中,经过训练的模型根据预定义的类集为图像分配特定的类。下图是著名的CIFAR-10数据集[1],它由十个类别的8000万张图像组成

    2024年02月02日
    浏览(69)
  • 【深度学习: 计算机视觉】如何改进计算机视觉数据集

    机器学习算法需要大量数据集来训练、提高性能并生成组织所需的结果。 数据集是计算机视觉应用程序和模型运行的燃料。数据越多越好。这些数据应该是高质量的,以确保人工智能项目获得最佳的结果和产出。 获取训练机器学习模型所需数据的最佳方法之一是使用开源数

    2024年02月20日
    浏览(46)
  • 什么是计算机视觉,计算机视觉的主要任务及应用

    目录 1. 什么是计算机视觉 2. 计算机视觉的主要任务及应用 2.1 图像分类 2.1.1 图像分类的主要流程 2.2 目标检测 2.2.1 目标检测的主要流程 2.3 图像分割 2.3.1 图像分割的主要流程 2.4 人脸识别 2.4.1 人脸识别的主要流程 对于我们人类来说,要想认出身边的一个人,首先需要

    2024年02月11日
    浏览(44)
  • 计算机毕业设计选题-最新最全机器视觉 计算机视觉选题推荐汇总

      大四是整个大学期间最忙碌的时光,一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了机器视觉,计算机视觉不同方向最新精选选题,如对选题有任何疑问,都可以问学长哦! 以下是学长精心整

    2024年02月06日
    浏览(61)
  • 【计算机视觉】基于OpenCV计算机视觉的摄像头测距技术设计与实现

    在当今技术日益进步的时代,计算机视觉已成为我们生活中不可或缺的一部分。从智能监控到虚拟现实,计算机视觉技术的应用范围日益广泛。在这篇博客中,我们将探索一个特别实用的计算机视觉案例:使用OpenCV实现摄像头测距。这一技术不仅对专业人士有用,也为编程爱

    2024年02月04日
    浏览(45)
  • 计算机视觉的实际应用:计算机视觉在实际应用中的成功案例

    计算机视觉(Computer Vision)是一种利用计算机解析、理解并从图像中抽取信息的技术。它是一种跨学科的研究领域,涉及到计算机科学、数学、物理、生物学、心理学等多个领域的知识和技术。计算机视觉的应用范围广泛,包括图像处理、图像识别、机器人视觉、自动驾驶等

    2024年01月23日
    浏览(50)
  • 【探索AI】三十一-计算机视觉(六)深度学习在计算机视觉中的应用

    深度学习在计算机视觉中的应用已经取得了显著的成果,并且正在逐步改变我们对图像和视频信息的处理和理解方式。下面将详细讲解深度学习在计算机视觉中的几个关键应用。 首先,我们来看图像分类。图像分类是计算机视觉的基本任务之一,它涉及到将输入的图像自动归

    2024年04月09日
    浏览(62)
  • 计算机视觉——图像视觉显著性检测

    目录 系列文章目录 零、问题描述 一、图像显著性检测 1.定义 2.难点 二、常用评价标准和计算方法 1.综述 2.ROS曲线详述 2.1 混淆矩阵 2.2 ROC曲线简介 2.3 ROC曲线绘制及其判别标准 2.4 ROC曲线补充 三、Fast and Efficient Saliency (FES) 1.算法简介 2.项目导入与解析 3.FES注意预测实践 4.评价

    2024年02月03日
    浏览(55)
  • 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(6月 29 日论文合集)

    基于多示例学习的全幻灯片图像分类的伪袋混合增强 论文地址: 鉴于十亿像素图像建模的特殊情况,多实例学习(MIL)已成为全幻灯片图像(WSI)分类最重要的框架之一。 在当前实践中,大多数 MIL 网络在训练中经常面临两个不可避免的问题:i)WSI 数据不足,ii)神经网络

    2024年02月11日
    浏览(53)
  • 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 30 日论文合集)

    检测任何深度伪装:分割任何符合人脸的伪装检测和定位 论文地址: 计算机视觉的快速发展刺激了面部伪造技术的显著进步,引起了致力于检测伪造和精确定位操纵区域的研究人员的关注。尽管如此,在有限的细粒度像素监督标签的情况下,deepfake检测模型在精确的伪造检测

    2024年02月16日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包