VIMA: General Robot Manipulation with Multimodal Prompts

这篇具有很好参考价值的文章主要介绍了VIMA: General Robot Manipulation with Multimodal Prompts。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Paper name

VIMA: General Robot Manipulation with Multimodal Prompts

Paper Reading Note

URL: https://arxiv.org/pdf/2210.03094.pdf
Project URL: https://vimalabs.github.io/
ICLR review URL: https://openreview.net/forum?id=hzjQWjPC04A

TL;DR

  • ICLR 2023 在投论文,斯坦福和 NVIDIA 的工作。允许多模态的 prompts (比如文字+图片/视频),交织文本和视觉 tokens 来进行机器人操作任务,另外提出了一个仿真数据集(VIMA-BENCH),所有实验都在该仿真数据集中进行

Introduction

背景

  • 基于提示的学习已经成为自然语言处理中的一种成功范例,其中单个通用语言模型可以被指示执行输入提示所指定的任何任务
  • 然而,机器人技术中的任务规范有多种形式,比如模仿一次性演示,遵循语言指令,以及达到视觉目标。它们通常被认为是不同的任务,由专门的模型来处理
  • 机器人如果能接受多模态的指令能极大降低交互难度:
    • 设想一个负责家务的个人机器人,我们可以通过简单的自然语言指令让机器人给我们送一杯水,如果我们需要更多的特异性,我们可以指示机器人“带给我<杯子的图像>”
    • 对于需要新技能的任务,机器人应该能够更好地从一些视频演示中学习任务应该如果进行
    • 需要与不熟悉的物体进行交互的任务可以通过一些图像示例来解释,为新概念奠定基础
    • 为了确保安全部署,可以进一步指定视觉约束,如“不进入 room”
  • 本文工作表明可以用多模态提示,交织文本和视觉标记来表达广泛的机器人操作任务

本文方案

  • 本文设计了一个基于 transformer 的通用机器人 agent: VIMA,VIMA 直接接受多模态提示,并自回归输出电机动作来控制机器人
    • 为了训练和评估VIMA,开发了一个新的模拟基准,其中包含数千个带有多模态提示的程序生成桌面任务,600K+ 专家轨迹用于模仿学习,以及四个级别的评估协议用于系统泛化性测试
    • VIMA 在模型容量和数据大小方面都具有很强的可伸缩性
    • 在相同的训练数据下,它在最难的 zero-shot generalization 设置中优于先前的 SOTA 方法,任务成功率高达 2.9 倍。在训练数据减少 10 倍的情况下,VIMA 的性能仍然比顶级竞争方法好 2.7 倍

Dataset/Algorithm/Model/Experiment Detail

实现方式

VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能

  • 不同的机器人可以基于多模态的 prompts 来进行操控,输入的模态可以包括
    • 自然语言
    • 自然语言 + 图片
    • 自然语言 + 视频序列
多模态 prompt 任务规范
  • Simple object manipulation:put into
  • Visual goal reaching:操作对象以达到目标配置,比如 rearrangement
  • Novel concept grounding:提示符包含不熟悉的单词,如“dax”和“blicket”,它们通过提示图像解释,然后立即在指令中使用
  • One-shot video imitation:观看视频演示,并学习为特定物体重现相同的运动轨迹
  • Visual constraint satisfaction:机器人必须小心操作物体,避免违反(安全)约束
  • Visual reasoning:需要推理技能的任务,如外观匹配“将与具有相同纹理的所有对象移动到容器中”,视觉记忆 “将放入容器中,然后恢复到原始位置” 等
评测协议 VIMA-BENCH (BENCHMARK FOR MULTIMODAL ROBOT LEARNING)
  • 通过 Ravens robot simulator 构建数据集
  • 17 个具有多模态提示模板的代表性元任务
    • 每个元任务都属于上面提到的 6 种任务规范方法中的一个或多个。VIMA-BENCH 可以通过脚本
      化的 oracle 代理生成大量的模仿学习数据
  • 数据集:
    • 利用预编程的 oracles 来生成一个大型的离线专家轨迹数据集,用于模仿学习
    • 数据集包括每个元任务50K个轨迹,总共650k个成功轨迹
    • 17 个任务中有 4 个用于测试 zero-shot generalization
  • 以下 4 个层次难度的评估协议
    VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能
VIMA: VISUOMOTOR ATTENTION MODEL

VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能文章来源地址https://www.toymoban.com/news/detail-652850.html

  • 具有以对象为中心设计的极简多任务编码器-解码器架构
    • 通过一个冻结的预训练语言模型对提示进行编码,并通过交叉注意层对编码提示进行解码
  • Tokenization
    • 三种原始输入形式:text, image of a single object, image of a full tabletop scene (例如,对视频帧进行重排或模仿)
      • text:使用 pre-trained T5 tokenizer 和 word embedding 获取 word tokens
      • images of full scenes: Mask R-CNN 提取物体,基于一个 a bounding box encoder 和 ViT 获取 object tokens
      • images of single objects:与 images of full scenes 基本一样,只是输入一个覆盖全图的 dummy bounding box
    • 通过将生成的 token sequence 传递给 pre-trained T5 tokenizer 模型来产生提示编码。positional embedding 是可学习的和绝对的
  • Robot Controller:机器人控制器(译码器)由提示序列P和轨迹历史序列H之间的一系列交叉注意层以提示序列P为条件,该设计优点:
    • 加强与提示的联系
    • 与原始提示充分交互
    • 更好的计算效率
  • 参考 Video Pretraining (VPT) 的工作,将预测的动作映射到机械臂的离散姿态
  • Training:
    • 遵循标准的行为克隆,通过最小化预测动作的 negative log-likelihood 来训练模型
    • 为了使VIMA对检测不准确性和故障具有鲁棒性,我们通过随机注入假阳性检测输出来应用对象增强

实验结果

对比 baseline
  • Gato:引入了一个仅解码器的模型,该模型通过使用观察和操作子序列提示模型来解决来自多个域的任务,其中任务是通过指定的。为了公平对比,这里直接给 VIMA 计算的 multimodal embedded prompt
  • Flamingo:一个视觉语言模型,学习生成文本补全以响应多模态提示。它通过 percepver Resampler 模块将可变数量的提示图像嵌入到固定数量的标记中,并通过交叉注意对已编码的 prompts 进行语言解码。本文将 Flamingo 输出层替换为机器人动作头来支持决策
  • Decision Transformer (DT):是最早将RL问题重新解释为 transformer 序列建模的作品之一。在视觉 RL 领域,如 Atari 游戏,DT 会根据期望的奖励值提示,并根据 RGB 观察嵌入自回归地输出动作。本文将 DT 的初始奖励提示替换为 VIMA 的多模式任务提示嵌入,并删除所有后续奖励 tokens
对比结果
  • VIMA 小模型精度就能很高,对于数据增加能获得更大精度收益
    VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能
  • Progressive Generalization,在测试更难的数据时掉点更少
    VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能
消融实验
  • Ablation on visual tokenizers:Mask R-CNN 检测相比于 GT 掉点不多, ViT 相比于 Perceiver(Perceiver: General Perception with Iterative Attention,将图片中检测的不同数量的物体转换为固定数目的 tokens) 有较大涨点,而且越难的任务涨点幅度越大
    • 重要的是将对象的可变 token 序列直接传递给机器人控制器,而不是向下采样到固定数量的 tokens
      VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能
  • Prompt conditioning: 小模型下本文设计的 xattn 精度更高,大模型下基本一致。本文的猜想是,交叉注意有助于控制器在每个交互步骤中更好地专注于提示指令
    • gpt-decoder: 将提示符P和交互历史记录H连接到一个大序列中,然后像 GPT 一样应用 decoder-only transformer 来预测 actions
      VIMA: General Robot Manipulation with Multimodal Prompts,paper_reading,人工智能

Thoughts

  • 看了下 ICLR 2023 的 review,基本认可在本文 setting 下的实验结果,但整体看评分并不高,主要有以下质疑点:
    • Mask-RCNN 在新场景下不方便 finetune 怎么办?
    • 作为机器人任务,只做拾取和放置任务太简单,而且还是仿真环境下做的,对象非常清晰
    • 实验的场景和现实场景差异太大:例如,“novel councept grounding” 似乎只是在定义上加上一个标签。“one shot video imitiation” 似乎是对一个精确轨迹的精确再现——这是一个比通常所说的模仿学习要弱得多的定义
    • 文章对多模态的优越性解释不到位。比如多模态的 prompts 如何来源?如果需要来源于人的语音指令,人却并不能在语音中插入图片和视频

到了这里,关于VIMA: General Robot Manipulation with Multimodal Prompts的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

    pdf Text-to-3D任务中,对3D模型外观的控制不强,本文提出IPDreamer来解决该问题。 在NeRF Training阶段,IPDreamer根据文本用ControlNet生成参考图,并将参考图作为Zero 1-to-3的控制条件,用基于Zero 1-to-3的SDS损失生成粗NeRF。 在Mesh Training阶段,IPDreamer将NeRF用DMTet转换为3D Mesh,并分别优化

    2024年02月07日
    浏览(44)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(88)
  • 好文推荐 A transformer-based representation-learning model with unified processing of multimodal input

    论文地址:https://www.nature.com/articles/s41551-023-01045-x 代码地址:https://github.com/RL4M/IRENE 基于Transformer的表示学习模型,作为临床诊断辅助工具,以统一的方式处理多模态输入。将图像与文字转化为visual tokens和text tokens,通过一个双向的跨模态注意力机制块共同学习不同信息间的

    2024年02月07日
    浏览(37)
  • 开发安全之:Path Manipulation

    Overview 攻击者可以控制 file_get_contents() 文件系统路径参数,借此访问或修改原本受保护的文件。 Details 当满足以下两个条件时,就会产生 path manipulation 错误: 1.攻击者能够指定某一文件系统操作中所使用的路径。 2. 攻击者可以通过指定特定资源来获取某种权限,而这种权限

    2024年01月20日
    浏览(32)
  • Java防御路径操作(Path Manipulation) 的正确姿势

    路径操作(Path Manipulation)的漏洞,简言之就是在路径中包含有一些特殊字符(… 或者 / 等),导致可以访问到期望目录之外的文件。 比如路径地址是 /usr/local/myapp/../../../etc/passwd ,对应到访问到的文件就是 /etc/passwd , 而这个文件是系统的文件,保存用户密码。 使用Coveri

    2023年04月08日
    浏览(44)
  • Hive——DML(Data Manipulation Language)数据操作语句用法详解

    Load语句可将文件导入到Hive表中。 说明: local : 表示从本地加载数据到Hive表;否则从HDFS加载数据到Hive表 。 overwrite : 表示覆盖表中已有数据,否则表示追加。 partition : 表示上传到指定分区,若目标是分区表,需指定分区 。 本地文件路径: 执行load语句: load da

    2024年04月28日
    浏览(37)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(38)
  • 【论文笔记】ObjectFormer for Image Manipulation Detection and Localization

    发布于CVPR2022 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf 在本文中,我们提出了ObjectFormer来检测和定位图像操作。 为了捕捉在RGB域中不再可见的细微操作轨迹,我们提取图像的高频特征,并将其与R

    2024年02月04日
    浏览(65)
  • Linux:登录报错“authentication token manipulation error”问题分析与解决方案

    在日常的Linux系统使用中,遇到“authentication token manipulation error”这个错误是一个比较常见的问题。这篇文章将为大家深入分析这个问题的原因,并提供详细的解决方案。 在尝试更改Linux系统的用户密码时,可能会遇到“authentication token manipulation error”的错误提示。这通常发

    2024年04月09日
    浏览(57)
  • 【大数据之Hive】十、Hive之DML(Data Manipulation Language)数据操作语言

    将文件导入Hive表中。 语法: 说明: (1)local:表示从本地加载数据到Hive表;否则从HDFS加载数据到HIve表。 (2)overwrite:表示覆盖表中已有数据,否则表示追加。 (3)partition:表示上传到指定分区,若目标是分区表则需要指定分区。 如: 语法: 说明: (

    2024年02月09日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包