使用大型语言模型进行自主视觉信息搜索

这篇具有很好参考价值的文章主要介绍了使用大型语言模型进行自主视觉信息搜索。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

推荐:使用 NSDT场景编辑器助你快速搭建3D应用场景
使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
视觉信息寻求查询的示例,其中需要外部知识来回答问题。图像取自 OK-VQA 数据集。

在”AVIS:使用大型语言模型的自主视觉信息搜索“,我们介绍了一种新颖的方法,该方法可以在视觉信息搜索任务上实现最先进的结果。我们的方法将LLM与三种类型的工具集成在一起:(i)用于从图像中提取视觉信息的计算机视觉工具,(ii)用于检索开放世界知识和事实的网络搜索工具,以及(iii)图像搜索工具,用于从与视觉相似的图像相关的元数据中收集相关信息。AVIS聘请了LLM驱动的规划师,在每一步选择工具和查询。它还使用 LLM 驱动的推理器来分析工具输出并提取关键信息。工作记忆组件在整个过程中保留信息。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
AVIS生成的工作流程示例,用于回答具有挑战性的视觉信息搜索问题。输入图像取自信息查找数据集。

与以前工作的比较

近期研究(例如,Chameleon, ViperGPT和MM-ReAct)探索向LLM增加多模式输入工具。这些系统遵循两个阶段的过程:计划(将问题分解为结构化程序或指令)和执行(使用工具收集信息)。尽管在基本任务上取得了成功,但这种方法在复杂的现实场景中经常会步履蹒跚。

对将LLM作为自主代理应用的兴趣也激增(例如,WebGPT和ReAct).这些代理与其环境交互,根据实时反馈进行调整,并实现目标。但是,这些方法不会限制在每个阶段可以调用的工具,从而导致巨大的搜索空间。因此,即使是当今最先进的LLM也可能陷入无限循环或传播错误。AVIS通过引导LLM使用来解决这个问题,受到用户研究中人类决策的影响。

通过用户研究为LLM决策提供信息

数据集中的许多视觉问题,例如信息搜索和OK-VQA即使对人类来说也构成了挑战,通常需要各种工具和API的帮助。下面显示了来自 OK-VQA 数据集的示例问题。我们进行了一项用户研究,以了解使用外部工具时的人类决策。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
我们进行了一项用户研究,以了解使用外部工具时的人类决策。图像取自 OK-VQA 数据集。

 

用户配备了与我们的方法相同的工具集,包括巴利语,手掌和网络搜索.他们收到输入图像、问题、检测到的对象裁剪以及与图像搜索结果相关的按钮。这些按钮提供有关检测到的对象裁剪的各种信息,例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。

我们记录用户操作和输出,并以两种关键方式将其用作我们系统的指南。首先,我们通过分析用户做出的决策顺序来构建一个过渡图(如下所示)。此图定义不同的状态,并限制每个状态的可用操作集。例如,在启动状态下,系统只能执行以下三个操作之一:PALI 标题、PALI VQA 或对象检测。其次,我们使用人类决策的例子来指导我们的计划者和推理者与相关的上下文实例,以提高我们系统的性能和有效性。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
AVIS过渡图。

 

A. 总体框架

我们的方法采用动态决策策略,旨在响应视觉信息搜索查询。我们的系统有三个主要组成部分。首先,我们有一个计划器来确定后续操作,包括适当的 API 调用和它需要处理的查询。其次,我们有一个工作内存,它保留了有关从 API 执行中获得的结果的信息。最后,我们有一个推理器,其作用是处理 API 调用的输出。它确定获得的信息是否足以产生最终响应,或者是否需要额外的数据检索。

每次需要决定使用哪种工具以及向其发送什么查询时,计划人员都会执行一系列步骤。根据当前状态,规划者提供一系列潜在的后续操作。潜在的操作空间可能太大,以至于搜索空间难以处理。为了解决这个问题,计划者参考了过渡图来消除不相关的操作。计划器还排除了之前已经采取并存储在工作记忆中的操作。

接下来,规划者收集一组相关的上下文示例,这些示例是根据人类在用户研究期间先前做出的决策组装而成的。通过这些示例和保存从过去工具交互中收集的数据的工作记忆,计划人员制定提示。然后将提示发送到LLM,LLM返回结构化答案,确定要激活的下一个工具以及要向其发送的查询。这种设计允许在整个过程中多次调用计划器,从而促进动态决策,逐渐导致回答输入查询。

我们聘请推理器来分析工具执行的输出,提取有用的信息,并确定工具输出属于哪个类别:信息性、无信息性或最终答案。我们的方法利用LLM和适当的提示和上下文示例来执行推理。如果推理者得出结论,它已准备好提供答案,它将输出最终响应,从而完成任务。如果它确定工具输出没有信息,它将返回到计划程序以根据当前状态选择另一个操作。如果它发现工具输出有用,它将修改状态并将控制权转移回计划员,以便在新状态下做出新决策。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
AVIS 采用动态决策策略来响应视觉信息搜索查询。

 

结果

我们评估 AVIS信息搜索和OK-VQA数据。如下所示,即使是健壮的视觉语言模型,例如奥法和巴利语,在 Infoseek 上进行微调时无法产生高精度。我们的方法(AVIS)无需微调,在该数据集的看不见的实体拆分上实现了50.7%的准确率。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
Infoseek 数据集上的 AVIS 视觉问答结果。与基于以下的先前基线相比,AVIS 实现了更高的精度巴利语,手掌和奥法.

 

我们在OK-VQA数据集上的结果如下所示。AVIS在上下文中的例子很少,准确率达到60.2%,高于以前的大多数作品。与在OK-VQA上微调的PALI模型相比,AVIS实现了较低但相当的精度。与 AVIS 优于微调 PALI 的 Infoseek 相比,这种差异是由于 OK-VQA 中的大多数问答示例依赖于常识知识而不是细粒度知识。因此,PaLI 能够在模型参数中编码此类通用知识,并且不需要外部知识。

使用大型语言模型进行自主视觉信息搜索,语言模型,人工智能,自然语言处理
A-OKVQA 上的可视问答结果。与以前使用少镜头或零镜头学习的工作相比,AVIS 实现了更高的准确性,包括火烈鸟,巴利语和毒蛇.AVIS还比之前在OK-VQA数据集上微调的大多数工作实现了更高的精度,包括揭示,恢复,凯特和克里斯普,并实现接近微调的结果巴利语型。

 

结论

我们提出了一种新颖的方法,使LLM能够使用各种工具来回答知识密集型视觉问题。我们的方法基于从用户研究中收集的人类决策数据,采用结构化框架,该框架使用LLM驱动的规划器来动态决定工具选择和查询形成。LLM 驱动的推理器的任务是从所选工具的输出中处理和提取关键信息。我们的方法反复使用计划者和推理者来利用不同的工具,直到收集到回答视觉问题所需的所有必要信息。

确认

这项研究由Ziniu Hu,Ahmet Iscen,Chen Sun,Kai-Wei Chang,Yizhou Sun,David A. Ross,Cordelia Schmid和Alireza Fathi进行。

原文链接:使用大型语言模型进行自主视觉信息搜索 (mvrlink.com)文章来源地址https://www.toymoban.com/news/detail-668139.html

到了这里,关于使用大型语言模型进行自主视觉信息搜索的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大语言模型(LLM)综述(五):使用大型语言模型的主要方法

    随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示

    2024年02月06日
    浏览(52)
  • 微软 Turing Bletchley v3视觉语言模型更新:必应搜索图片更精准

    据微软新闻稿透露,在推出第三代Turing Bletchley视觉语言模型后,微软计划逐步将其整合到Bing等相关产品中,以提供更出色的图像搜索体验。这款模型最初于2021年11月面世,并在2022年秋季开始邀请用户测试。 凭借用户的反馈和建议,微软不断进行调整和改进,使模型能够根据

    2024年02月10日
    浏览(44)
  • 使用langchain打造自己的大型语言模型(LLMs)

    我们知道Openai的聊天机器人可以回答用户提出的绝大多数问题,它几乎无所不知,无所不能,但是由于有机器人所学习到的是截止到2021年9月以前的知识,所以当用户询问机器人关于2021年9月以后发送的事情时,它无法给出正确的答案,另外用户向机器人提问的字符串(prompt)长度

    2024年02月02日
    浏览(52)
  • 照片相似性搜索引擎Embed-Photos;赋予大型语言模型(LLMs)视频和音频理解能力;OOTDiffusion的基础上可控制的服装驱动图像合成

    ✨ 1: Magic Clothing Magic Clothing是一个以可控制的服装驱动图像合成为核心的技术项目,建立在OOTDiffusion的基础上 Magic Clothing是一个以可控制的服装驱动图像合成为核心的技术项目,建立在OOTDiffusion的基础上。通过使用Magic Clothing,可以在不同的场景下达到根据服装设计或者需求

    2024年04月26日
    浏览(32)
  • Python使用OpenAI 和大型语言模型对话PDF和图像文本

    本文首先介绍文件文本嵌入方法及代码实现,然后介绍和代码实现提取PDF和图像文本应用于大型语言模型。在此基础上,构建回答任何问题的人工智能助手。 文本嵌入是自然语言处理(NLP)领域的重要工具。它们是文本的数字表示,其中每个单词或短语都表示为实数的密集向

    2024年02月14日
    浏览(45)
  • 【斯坦福】FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能

    FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能 作者:Lingjiao Chen, Matei Zaharia, James Zou 本文介绍了一种新颖的方法,旨在解决使用大型语言模型(LLM)时面临的成本和性能挑战。随着GPT-4和ChatGPT等LLM的日益流行,我们需要找到降低这些模型推理成本的策略。作者强调

    2024年02月11日
    浏览(49)
  • 使用思维链(Chain-of-thoughts)提示在大型语言模型中引出推理

    语言模型(LM)在NLP领域的发展速度非常快,特别是在大型语言模型(LLM)方面:当语言模型具有大量参数或权重/系数时,它们被称为“大型”。这些“大型”语言模型拥有处理和理解大量自然语言数据的能力。 LLM被用于一系列自然语言任务,如文本摘要、情感分析、主题分类、

    2024年02月05日
    浏览(41)
  • 如何构建一个大型搜索引擎——百度如何抓取海量数据并为用户找到信息?

    作者:禅与计算机程序设计艺术 搜索引擎是互联网的一个重要组成部分,它作为信息检索入口承载着互联网上海量的可用信息。百度是一个著名的搜索引擎,拥有超过9亿用户、超过7亿流量、超过150万网页被索引,是中国最大的中文搜索引擎。从2005年百度的诞生到今日,百度

    2024年02月08日
    浏览(64)
  • 安卓实战开发之——使用 WIFI 进行设备搜索并获取相应信息

    目录 一、前言 二、准备条件 三、功能要求 四、显示效果 五、关键代码  此玩意是本人很早很早(记不清有多早了,反正很早)做过的一个课程任务了,无意之中翻到了,所以把它放上来。不愿再找以前写的代码了,所以放的文档里的截图。 首先需要安装配置好Java开发环境

    2024年02月09日
    浏览(38)
  • AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。

    2024年02月21日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包