当GPT-4V充当机器人大脑,可能你都没AI会规划

这篇具有很好参考价值的文章主要介绍了当GPT-4V充当机器人大脑,可能你都没AI会规划。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。

GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,让它作为控制机器人的大脑,会有什么有趣的结果呢?

最近,来自清华大学交叉信息研究院的研究者提出「ViLa」算法,实现了让 GPT-4V 走进物理世界中,为机器人操作日常生活物品提供任务规划。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。

比如在下面这个视频中,研究人员让机器人拿出搁板上的漫威模型(钢铁侠)。ViLa 能理解这个场景中物体的复杂空间位置关系,即纸杯和可乐罐挡住了钢铁侠,要拿出钢铁侠,则必须先拿走纸杯和可乐罐。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

又比如在下面这个视频中,研究人员让机器人为上美术课的孩子们整理出一个桌面区域。ViLa 能根据这个场景中的剪纸,推断出现在上课所需的工具是剪刀,把其它危险物品,比如螺丝刀和水果刀放入收纳盒中。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

可以看出,ViLa 具有像人类一样的常识,能在非常复杂的环境中控制机器人,为机器人提供任务规划。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

  • 论文地址:https://arxiv.org/pdf/2311.17842.pdf
  • 论文主页:https://robot-vila.github.io/
  • 论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc

接下来,该研究详细介绍了 ViLa 这项研究成果。

方法介绍

ViLa 使用了视觉语言大模型 (VLM) 来做机器人的任务规划。如今的 VLM 在图像和语言两个模态上都展现出前所未有的理解和推理能力。将 VLM 应用到机器人任务中,它能基于当前环境的视觉观测,结合自己丰富的世界知识进行推理。作者团队提出了 ViLa 算法,主张直接使用视觉语言大模型(如 GPT-4V),将高级抽象指令分解为一系列低级可执行技能。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

给定一条语言指令和当前的视觉观测图像,ViLa 利用 GPT-4V 通过链式思维推理来理解环境场景,随后生成多步的计划。接着,这个计划的第一步由一个基本策略来执行。最后,已经执行的步骤被添加到已完成的计划中,使得在动态环境中实现闭环规划方法。

GPT-4V 由于经过大规模互联网数据的训练,展现出了卓越的多样性和极强的泛化能力。这些特性使得它特别擅长处理论文中提出的开放世界场景。此外,作者团队发现,即使是在零样本(Zero-Shot)学习模式下运行,由 GPT-4V 驱动的 ViLa 也能够解决多种具有挑战性的规划问题。这显著减少了之前方法中所需的提示工程。

实验

ViLa 在现实世界和模拟环境中都展示了以零样本方式解决各种日常操作任务的能力,有效处理各种开放集指令和物体对象。作者团队通过大量实验证明了 ViLa 的优势:1. ViLa 能深刻理解视觉世界中的常识,2. ViLa 支持灵活的多模态目标指定方法,3. ViLa 自然地支持视觉反馈和闭环控制。

A. ViLa 能深刻理解视觉世界中的常识

语言和图像作为不同的信号类型,各具独特性质:语言由人类生成,富含语义,但在表达全面信息方面有限;相比之下,图像作为自然信号,包含细致的低层次特征,一张图像便能够捕捉场景的全部信息。在难以用语言简单概括的复杂场景下,这种差异尤为突出。通过将视觉图片直接结合到推理过程中,ViLa 可以理解视觉世界的常识知识,擅长处理需要全面了解空间布局或物体属性的复杂任务。

空间布局

用简单的语言描述复杂的空间布局,尤其是物体定位、位置关系和环境限制,是非常困难的。通过直接将视觉融入推理过程,ViLa 可以精确地识别物体在场景中的位置,以及它们之间的关系。

在 “拿可乐罐” 任务中,ViLa 发现可乐罐不在视线中,于是聪明地打开了冰箱并找到了它。而基线方法则会在可乐罐不在视线中的情况下给出” 拿起可乐罐 “的错误指令。

在 “拿空盘子” 任务中,ViLa 知道在拿起蓝色盘子之前,需要先把它上面的苹果和香蕉移走。而基线方法则忽视了盘子上的物体,直接给出” 拿起蓝色盘子 “的错误指令。

物体属性

物体的定义涵盖多个属性,包括形状、颜色、材质、功能等。然而,自然语言的表达能力有限,因此在全面传达这些属性方面显得笨拙。此外,物体的属性与特定任务密切相关。以上原因使得过去的算法难以处理需要深入理解复杂物体属性的场景。然而,得益于对视觉和语言的联合推理,ViLa 对于物体在特定场景中的属性有深入的理解。

在 “准备美术课” 任务中,ViLa 认为螺丝刀和水果刀是危险物品,于是移走了它们;考虑到桌上的剪纸,ViLa 认为剪刀对美术课是必要的物品,于是留下了它。而基线方法则忽视了桌上的剪纸和美术课这一特定场景,认为剪刀也是危险物品,选择将其移走。

在 “挑选新鲜水果” 任务中,ViLa 可以精确地挑选出新鲜且完整的水果。而基线方法认为剥了一半的橘子和腐烂的香蕉都是完整且新鲜的水果。

作者团队在 8 个相关任务上进行了充分的定量实验。如表一所示,ViLa 在理解空间布局和物体属性任务上显著超过了基线方法。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

B. 多模态目标指定

ViLa 支持灵活的多模态目标指定方法。ViLa 不仅能够利用语言指令,还能够利用多种形式的图像作为目标,甚至利用语言和图像的混合形式来定义目标。

视频中的四个任务分别表明:

  1. ViLa 可以将真实图片作为目标。
  2. ViLa 可以将抽象图片(如小孩的画,草稿等)作为目标。
  3. ViLa 可以将语言和图像的混合形式作为目标。
  4. ViLa 可以发现图片中手指指着的位置,并将其作为实际任务中的目标位置。

作者团队在这四个任务上进行了定量实验。如表二所示,ViLa 在所有任务中均表现出了强大的识别多模态目标的能力。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

C. 视觉反馈

ViLa 以直观、自然的方式有效利用视觉反馈,在动态环境中实现鲁棒的闭环规划。

  • 在 “堆木块” 任务中,ViLa 检测出了执行基本技能时的失败,于是重新执行了一遍基本技能。
  • 在 “放薯片” 任务中,ViLa 意识到了执行过程中人的干扰。
  • 在 “找猫粮” 任务中,ViLa 可以不断地打开抽屉 / 柜子来寻找猫粮,直到找到。
  • 此外,ViLa 可以完成需要人机交互的任务,等待人握住可乐罐之后才松开夹爪。

作者团队在这四个任务上进行了定量实验。如表三中所示,通过自然地结合视觉反馈,闭环控制的 ViLa 的表现显著强于开环控制。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

D. 模拟环境实验

在模拟环境中,ViLa 可以按照高级语言指令的指示,将桌子上的物体重新组织成特定的排列。

如表四中所示,ViLa 在模拟环境中的表现也显著超过了基线方法。

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

当GPT-4V充当机器人大脑,可能你都没AI会规划,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,机器人,人工智能

 文章来源地址https://www.toymoban.com/news/detail-789564.html

到了这里,关于当GPT-4V充当机器人大脑,可能你都没AI会规划的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解读Amazon Q | 用AI聊天机器人连接你与未来的无限可能

    授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道         在美国当地时间11月28日,亚马逊云科技在拉斯维加斯举办了 re:Invent 大会,大会介绍了许

    2024年02月04日
    浏览(33)
  • GPT护理机器人 - 让护士的工作变简单

    书接上文《GPT接入企微应用 - 让工作快乐起来》,我把GPT接入了企微应用,不少同事都开始尝试起来了。有的浅尝辄止,有的刨根问底,五花八门,无所不有。这里摘抄几份: “帮我写一份表白信,我们是大学同学,暗恋十年” ”顺产后多久可以用收腹带?生完宝宝用收腹

    2024年02月01日
    浏览(28)
  • GPT2训练自己的对话问答机器人

    这里我搭建了虚拟的3.6环境 基于GPT2的中文闲聊机器人,模型实现基于HuggingFace的transformers ,精读GPT2-Chinese的论文和代码,获益匪浅。 data/train.txt:默认的原始训练集文件,存放闲聊语料;data/train.pkl:对原始训练语料进行tokenize之后的文件,存储一个list对象,list的每条数据表示一个

    2024年02月12日
    浏览(50)
  • 自然机器人最新发布:智能流程助手,与GPT深度融合

            ChatGPT自2022年11月上线后就受到现象级地广泛关注,5天时间用户就已经突破百万,仅2个月时间月活用户就突破1亿,成为史上增速最快的消费级应用,远超TikTok、Facebook、Google等全球应用。它 展现了类似人类的语言理解和对话交互能力,充分彰显了其引领当前AI发展

    2023年04月13日
    浏览(30)
  • 群辉用户接入vocechat的方法(附开通GPT机器人)

    昨天的找群辉文章的时候看到了vocechat,同时在矿神的第三方扩展找到不了它,synology chat很好,但是很多时候安装不上。所以介绍一下vocechat,这款工具 通过加入矿神第三方资源,搜索chat,进行安装。结束安装点打开是空白页面,手工的端口后加入 /install。开始初始化配置。

    2024年02月16日
    浏览(31)
  • 手搓GPT系列之 - chatgpt + langchain 实现一个书本解读机器人

    ChatGPT已经威名远播,关于如何使用大模型来构建应用还处于十分前期的探索阶段。各种基于大模型的应用技术也层出不穷。本文将给大家介绍一款基于大模型的应用框架:langchain。langchain集成了做一个基于大模型应用所需的一切。熟悉java web应用的同学们应该十分熟悉spring

    2024年02月05日
    浏览(31)
  • AgentGPT:基于GPT-4的开源AI自动化机器人工具

      【产品介绍】   AgentGPT是一个基于GPT-4的开源AI自动化机器人工具,可以让你在浏览器中配置和部署自主的 AI机器人。你可以给机器人设置一个名字和一个目标,然后点击部署按钮,就可以看到机器人进行的行为和输出,完全不需要人为干涉的进行自动任务。   AgentGPT是一

    2024年02月08日
    浏览(26)
  • LangChain入门(五)-使用GPT3.5模型构建油管频道问答机器人

    目录 一、安装依赖 二、使用示例  一、安装依赖 二、使用示例  结尾、扫一扫下方微信名片即可+博主徽信哦  ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓  ↓↓↓

    2024年02月11日
    浏览(31)
  • 使用Langchain+GPT+向量数据库chromadb 来创建文档对话机器人

    使用Langchain+GPT+向量数据库chromadb 来创建文档对话机器人 文件存放地址 参考: https://python.langchain.com/docs/use_cases/chatbots https://python.langchain.com/docs/integrations/vectorstores/chroma https://blog.csdn.net/v_JULY_v/article/details/131552592?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216945020581680022659096

    2024年02月03日
    浏览(29)
  • DeepMind发布多任务机器人RoboCat;沧海拾珍之LLM、GPT

    🦉 AI新闻 🚀 DeepMind发布多任务机器人控制AI模型RoboCat 摘要 :谷歌旗下DeepMind发布了名为RoboCat的AI模型,该模型可以控制不同机器人手臂执行多项任务。RoboCat是第一个能够解决和适应多种任务的模型,并且使用真实世界机器人来完成。该模型的训练数据包括模拟和真实机器

    2024年02月11日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包