具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

这篇具有很好参考价值的文章主要介绍了具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

相关链接

github链接
主页链接(包括论文和训练数据集)

摘要和简介

迁移学习在计算机视觉领域已有很多研究,但在端到端的机器人学习控制的领域研究还比较少,本论文提出通用的机器人模型一个关键点在于开放式的(open-ended)任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构,可以吸收所有不同种类的机器人数据。
论文里的核心问题:可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力? 其挑战主要存在两个方面:正确的数据集和合适的模型设计

  • 数据集:好的泛化性需要数据集同时具有规模和宽泛性,包含各种不同的任务和设置;
  • 模型设计: 需要大容量,Transformer网络很符合这个需求。
    为此,该论文提出一个先进的机器人控制网络RT-1
    (Robotics Transformer 1), 它将高维输入和输出编码成紧凑的token表征,包括图像,文本指令和电机控制指令,并可以进行实时推理控制。

相关工作与预备知识

  • 在使用语言和Transformer控制机器人这个方向,本工作在此方向上更进一步,将语言视觉观测映射到机器人动作的过程当作一个序列建模过程,并使用Transformer网络来学习这个映射;
  • 大部分工作专注于让Transformer学习单个任务(如Goto, Behaviour Transformer),本工作验证了基于Transformer的策略在保持实时性的同时,具有高容量(high capacity)和泛化性;
  • 本工作进一步支持了多任务和language-conditioned机器人学习的能力, 在大规模数据集(有大量不同行为,对象和场景)上提供了实验结果,并提出了新的结构和设计选项,使得机器人可以在更大规模上进行学习;
  • 机器人学习(Robot learning): 我们旨在学习机器人策略,用于从视觉观测中解决language-conditioned任务;
  • Transformers:,一个Transformer网络是一系列的模型映射,它将一个输入序列映射到一个输出序列,联合使用自注意力(self-attention)层和全连接神经网络;
  • 模仿学习(Imitation learning):在演示数据上学习机器人策略,类似一般深度学习中的监督学习,目标是最小化基于观测的预测值与标签值之间的差异。

系统概述

目标:创建和演示一个通用的机器人学习系统,可以吸收大规模的数据并能有效地泛化;
机器人平台:EverydayRobots的移动操作机器人,具有7自由度的机械臂,两指夹爪和一个移动底盘;
具身智能controller---RT-1(Robotics Transformer)(上---方法介绍),深度学习,人工智能,具身智能

环境:三个厨房环境—两个真实办公厨房和一个基于这些真实厨房建模的训练环境;
具身智能controller---RT-1(Robotics Transformer)(上---方法介绍),深度学习,人工智能,具身智能

数据: 人类提供的示教,并对每个episode进行文本标注,用于表示其动作指令。我们最大的数据集包含在超过700个任务上超过130条独立示教;
具身智能controller---RT-1(Robotics Transformer)(上---方法介绍),深度学习,人工智能,具身智能
RT-1: 输入短序列图像和一条自然语言指令,输出当前时刻机器人的动作。为此,网络结构包括多个部分:首先使用一个基于ImageNet预训练的卷积神经网络对图像和文本进行处理生成多个token,然后使用Token Learner计算一个紧凑的token集合,最后使用一个Transformer处理这些Token,并产生离散的动作tokens。输出的动作包括机械臂的七自由度运动 (x, y, z, roll, pitch, yaw, opening of the gripper), 底盘的三自由度运动(x, y, yaw)和一个离散维度用于表征动作模式转换(控制机械臂,控制底盘或者结束)。

模型 RT-1: ROBOTICS TRANSFORMER

本部分介绍如何tokenize图像,文本指令和动作,然后讨论RT-1模型结构,并描述如何进行实时控制,最后介绍数据采集流程以及数据集中的技能和指令。

模型

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍),深度学习,人工智能,具身智能
指令和图像tokenization:RT-1通过将最新的6帧图像输入到基于ImageNet预训练的EfficientNet-B3网络来tokenizes这些图像,该网络使用6张300x300的图像,输出一张9x9x512的空间特征图,然后变平成81个512维的token输给后面的网络层来处理;指令首先通过universal sentense encoder进行编码,得到一个512维的向量,这个embedding然后输入到 identity-initialized FiLM层,加入到预训练的EfficientNet中用来训练图像编码器。整个图像和指令tokenization网络共有约6M参数,包括26层MBConv块和FiLM层,最终产生81个指令图像token;
TokenLearner:TokenLearner对81视觉指令token进行采样,最终获得仅仅8个tokens,输入到后续的Transformer层;
Transformer: 历史6张张图像指令对应的8 个token拼接在一起形成48个token(包括增加的位置编码),输入到Transformer骨干。Transformer是一个 decoder-only序列模型,它有8个self-attention层,总共约19M参数,最终输出action tokens;
动作tokenization:每个连续的动作被离散到256维的bin中,并被映射到其中之一;
Loss:标准分类交叉熵和随机mask
实时推理加速:1,使用token learner对原始token进行压缩;2,推理时保留历史5帧图像对应的指令图像token,而不必全部重新计算;分别加速2.4倍和1.7倍。文章来源地址https://www.toymoban.com/news/detail-610102.html

到了这里,关于具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 具身智能综述和应用(Embodied AI)

    什么是具身智能? 目前人工智能的进展,在诸多数据源和数据集(Youtube、Flickr、Facebook)、机器计算能力(CPU、GPU、TPU)的加持下,已经在CV、NLP上取得了许多任务(如目标检测、语义分割等)的重大进展。 但目前大部分深度学习模型训练时使用的数据来自于互联网(Inter

    2024年02月03日
    浏览(47)
  • 【具身智能】AI仿真工具-Habitat安装教程

    Habitat 是一个具体人工智能研究平台,包括: Habitat-Sim :一种灵活的高性能 3D 模拟器,具有可配置代理、多个传感器和通用 3D 数据集处理(内置对 MatterPort3D、 Gibson和其他数据集的支持)。 Habitat-Sim 通常与 Habitat-Lab一起使用,Habitat-Lab 是一个模块化高级库,用于嵌入式 AI 中

    2024年03月24日
    浏览(33)
  • SpringMVC框架中@Controller类的方法的返回值的详细介绍

    目录 前言 1. 返回值类型为ModelAndView 2.  返回值为String(视图) 3.  返回值为void 4.  返回值为Object 5. 返回值为List  6. 返回值为String(数据) 在SpringMVC框架中,我们最常见的就是@Controller注解,可以说是只要见到了@Controller注解,就可以说明当前的项目使用了SpringMVC框架。那么在使

    2024年02月19日
    浏览(42)
  • 具身智能,是机器人的“冷饭热炒”吗?

    大模型正如火如荼,下一个AI风口就来了。 如果你关注2023世界人工智能大会等行业峰会,以及英伟达、微软、谷歌、特斯拉和国內科技大厂的最新发布会,除了“大模型”,应该会听到另一个高频词——具身智能。 所谓具身智能Embodied AI ,指的是有身体并支持物理交互的智

    2024年02月15日
    浏览(50)
  • 奥比中光:进击具身智能,打造机器人之眼

    大数据产业创新服务媒体 ——聚焦数据 · 改变商业 跨过奇点的生成式人工智能是一个缸中大脑,只有赋予形体,才能与物理世界产生互动。 在5月的ITF世界半导体大会上,英伟达创世人兼CEO黄仁勋说,人工智能的下一波浪潮将是具身智能。 8月中旬,世界机器人大会在北京

    2024年02月11日
    浏览(44)
  • 新方向!文心一言X具身智能,用LLM大模型驱动智能小车

    具身智能已成为近年来研究的热点领域之一。具身智能强调将智能体与实体环境相结合,通过智能体与环境的交互,来感知和理解世界,最终实现在真实环境中的自主决策和运动控制。 如何基于文心大模型,低成本入门“具身智能”,并用身边的普通硬件就能快速搭建“能理

    2024年02月03日
    浏览(37)
  • 通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

    目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献       目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言

    2024年02月07日
    浏览(86)
  • 人类自主行动背后的本质和具身人工智能未来的发展

    人类自主行动指的是人们自发地做出决策,采取行动

    2024年02月07日
    浏览(50)
  • “具身智能”浪潮中,达闼机器人的商业化“奇点”已然到来?

    当前,人形机器人产业正在快速发展,而2023年必将会是载入史册的一年。 具体来看,2023年,AI技术大爆发,可在语言、视觉、运动控制、降低研发成本等多方面赋能人形机器人产业发展。与此同时,特斯拉、波士顿动力、优必选、达闼、小米、傅利叶智能等海内外企业纷纷

    2024年01月16日
    浏览(50)
  • 【人工智能】Embodied AI :具身人工智能概述 | Overview of Embodied Artificial Intelligence

    从“互联网人工智能”时代到“具身人工智能”时代,人工智能算法和代理不再从主要来自互联网的图像、视频或文本数据集中学习。相反,他们通过与环境的互动从类似于人类的以自我为中心的感知中学习。因此,对支持各种具体人工智能研究任务的隐含人工智能模拟器的

    2024年02月09日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包