GPT-4V(GPT-4Vision)(GPT-4V)是由OpenAI开发的一种多模型。GPT-4V允许用户上传一张图片作为输入,并提出关于该图片的问题,这种任务类型被称为视觉问题回答(VQA)。 GPT-4V自9月24日起推出,并将在OpenAI ChatGPT iOS应用和网络界面中提供。
一、前言
OpenAI 正在扩展其在人工智能(AI)领域的视野,推出了 GPT-4V 模型,该模型具有聆听、进行对话和解释图像的能力。
人工智能世界正在迅速发展,OpenAI 继续引领潮流。9月25日,该组织宣布对其 ChatGPT 系统进行了重大升级,引入了具有视觉功能的 GPT-4V 模型和多模态对话功能。
二、GPT-4V 深藏功与名
现在,ChatGPT 用户可以参与比以往更加动态和互动的对话。这一进步得益于两个 AI 模型,GPT-3.5 和 GPT-4,它们可以理解用简单语言表达的口头查询,并用五种不同的声音之一进行回应。
OpenAI 对这种新型多模态界面的可能性充满信心。现在,您可以在旅行时拍摄一个地标的照片,然后进行实时对话,了解它的有趣特征。在家里,拍摄冰箱和食品储藏室的照片,决定吃什么,并甚至请求逐步的食谱。晚餐后,帮助您的孩子解决一个数学问题,拍摄问题的照片,圈出问题,并让 ChatGPT 为您两个提供提示。
这一令人兴奋的改进紧随 OpenAI 发布 DALL-E 3 的脚步,DALL-E 3 是一种先进的图像生成系统,整合了自然语言处理功能,允许用户微调结果,并与 ChatGPT 合作创建图像提示。
DALL-E 3负责图像输出,GPT-4V负责图像输入,输入和输出相结合编排起来以后,文字和图像各种复杂的场景都会有了。
需要值得注意的是,GPT-4V 已于 2022 年完工,这OpenAI到底藏了多少好东西!
三、GPT-4V 示例
3.1 视觉问题回答
使用 GPT-4V 在理解给定图像中的上下文和关系方面的能力。
GPT-4V 成功地描述了这个图像为什么有趣,参考了图像中的各种组成部分以及它们之间的联系。值得注意的是,提供的梗图包含了文字,GPT-4V 能够阅读并用于生成回应。尽管如此,GPT-4V 确实犯了一个错误。模型称炸鸡被标记为“NVIDIA BURGER”,而不是“GPU”。
首先上传了一张美国一分钱的照片。GPT-4V 成功地识别出了硬币的来源和面额:
然后,我们上传了一张带有多个硬币的图像,并用这样的文字提示 GPT-4V:“我有多少钱?”
GPT-4V 能够识别出硬币的数量,但没有确定货币类型。在随后的问题中,GPT-4V 成功地识别出了货币类型:
3.2 光学字符识别(OCR)
探索GPT-4V 的 OCR 能力,上传图片识别轮胎上文字。
GPT-4V 无法正确识别轮胎图片中的序列号。模型的结果中,有些数字是正确的,但也出现了几个错误。
然后上传一个网页上的文本,并要求 GPT-4V 阅读图片中的文本。模型成功地识别出了图片中的文本。
GPT-4V 在将图片中的文字转换为文本中的单个字符方面做得非常出色。对于与从文档中提取文本相关的任务来说,这是一个有用的见解。
3.3 数学 OCR
数学 OCR 是一种针对数学方程的特殊 OCR 形式。数学 OCR 通常被视为一门独立的学科,因为 OCR 模型需要识别的语法涵盖了大量的符号。
我们向 GPT-4V 提出了一个数学问题。这个数学问题是从一个文档中截取的屏幕截图。问题涉及到根据两个角度计算拉链滑索的长度。我们附上图片,并提示“求解”。
模型识别出这个问题可以用三角函数解决,确定了要使用的函数,并逐步演示了如何解决这个问题。然后,GPT-4V 提供了问题的正确答案。
尽管如此,GPT-4V 系统卡片指出,模型可能会漏掉数学符号。不同的测试,包括手写在纸上的方程式或表达式的测试,可能显示出模型在回答数学问题方面的不足。
3.4 物体检测
物体检测是计算机视觉领域的基本任务。我们要求 GPT-4V 识别各种物体的位置,以评估其执行物体检测任务的能力。
我们上传的图片中,要求 GPT-4V 在图像中检测一条狗,并提供与狗的位置相关的 x_min、y_min、x_max 和 y_max 值。GPT-4V 返回的边界框坐标与狗的位置不匹配。
3.5 验证码(CAPTCHA)
我们决定使用验证码测试 GPT-4V,这是 OpenAI 在其研究中研究并在系统卡片中介绍的任务。我们发现 GPT-4V 能够识别出图像中包含验证码,但通常无法通过测试。在一个交通灯示例中,GPT-4V 没有勾选包含交通灯的一些框。
3.6 纵横字谜和数独
测试 GPT-4V 在纵横字谜和数独上的表现。
首先,我们向 GPT-4V 提供了一张纵横字谜的照片,并附上文字指示“解答”。GPT-4V 推断出图像中包含一个纵横字谜,并尝试提供一个解答。模型似乎正确阅读了线索,但误解了棋盘的结构。因此,提供的答案是错误的。
在我们的数独测试中,GPT-4V 也表现出了相同的局限性,它识别出了游戏,但误解了棋盘的结构,因此返回了不准确的结果:
四、其它产商最新动态
与此相关的 AI 新闻中,OpenAI 的竞争对手 Anthropic 最近宣布与亚马逊AWS达成合作,为云服务和 AI 模型定制领域的突破性发展铺平道路。
亚马逊表示,已同意向 AI 公司 Anthropic 投资高达 40 亿美元(292.5 亿元人民币),这是科技巨头最近为了在 AI 军备竞赛中获得优势而向初创公司投资的大手笔。
知情人士表示,亚马逊已承诺向成立仅两年的 Anthropic 投资 12.5 亿美元,视某些情况而定,这个数额可能会逐渐增加到 40 亿美元。
其中一名知情人士表示,作为协议的一部分,Anthropic 已同意将一定数量的资金花在亚马逊的云基础设施业务 AWS 上。这一安排的具体内容不得而知。文章来源:https://www.toymoban.com/news/detail-841982.html
这是AWS抗衡Azure OpenAI 的强有力手段,比较令人期待。文章来源地址https://www.toymoban.com/news/detail-841982.html
到了这里,关于计算机视觉 GPT-4V 它来了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!