【谷歌新作】Transformer杀入机器人领域,RT-1:97%成功率,轻松完成700多条控制指令

这篇具有很好参考价值的文章主要介绍了【谷歌新作】Transformer杀入机器人领域,RT-1:97%成功率,轻松完成700多条控制指令。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

谷歌机器人团队等在机器人领域构建了一个多任务 transformer 模型,显著改进了对新任务、环境和对象的零样本泛化。

我们知道,机器学习(ML)多个子领域(如 NLP 和 CV)的最新重大进展通过一种共享的通用方法实现,该方法充分利用大规模、多样化数据集以及有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应用于机器人技术,但机器人还没能利用到高性能模型。

构成挑战的因素有几个。首先缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说成本高昂且具有挑战性,这是因为数据集管理需要工程量大的自主操作或者使用人类远程操作收集的演示。其次缺乏可以从此类数据集中学习并有效泛化的高表达性、可扩展且速度足够快的实时推理模型。

为了解决这些挑战,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

RT-1: Robotics Transformer for Real-World Control at Scale

  • 论文地址:https://robotics-transformer.github.io/assets/rt1.pdf

  • 项目地址:https://github.com/google-research/robotics_transformer

该团队对模型和训练集中的许多设计选择进行了仔细评估和消融实验,分析了 tokenization、动作表示和数据集组合的影响。与现有技术相比,RT-1 可以显著改进对新任务、环境和对象的零样本泛化。RT-1 可以以 97% 的成功率执行 700 多个训练指令,并且可以泛化到新的任务、干扰因素和背景。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

RT-1 吸收了大量数据,包括涉及多任务、对象和环境的机器人轨迹,实现了更好性能和泛化能力。

最后,该团队将 RT-1 代码开源,希望为未来扩大机器人学习的研究提供宝贵的资源。

RT-1 模型概览

RT-1 建立在一个 transformer 架构上,该架构从机器人相机中获取瞬时图像以及以自然语言表达的任务描述作为输入,并直接输出 tokenized 动作。RT-1 的架构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的 decoder-only 序列模型。RT-1 的主要功能包括图像和动作 tokenization 以及 token 压缩。

图像 tokenization。该团队通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为 81 个 tokens。图像 tokenizer 以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作 tokenization。机器人的动作维度包括手臂运动的 7 个变量(x、y、z、翻转、俯仰、摇摆、打开夹具)、3 个基本运动变量(x、y、摇摆)以及一个在控制臂、控制 base 或终止 episode 三种模式之间切换的额外具体变量。每个动作维度被离散化为 256 个 bins。

Token 压缩。RT-1 自适应地选择图像 tokens 的软组合,这些组合根据它们对使用元素级注意力模块 TokenLearner 学习的影响进行压缩,使推理速度提升 2.4 倍以上。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

RT-1 架构、数据集和评估概览图。

实验和结果

为了更好地理解 RT-1 的泛化能力,该团队在三个基准上进行了实验:Gato、BC-Z(与 RT-1 参数量相同)和 BC-Z XL,并通过四个类别进行比较。

  • 在所见到的任务上的表现;

  • 在没见过任务上的表现:在训练集中,机器人的技能和对象是分开看到的,但以新颖的方式结合在一起;

  • 鲁棒性:在有干扰(有 9 个干扰,此外还有遮挡情况)、改变背景(换个新厨房、光照不同等)上的任务表现;

  • 长情景:在真实厨房中执行 SayCan 类型的自然语言指令。

RT-1 在四个类别的比较中都大大超过基线,表现出极强的泛化性和鲁棒性。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

RT-1 与基线性能对比。

整合异构数据源

为了进一步挖掘 RT-1 的性能,该团队还将训练另一个机器人的数据用来训练 RT-1,目的有两个:(1) 测试模型在新数据上是否保持其在原始任务上的性能;(2) 观察模型在新的以及不同数据上泛化能力。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

从多个机器人那里收集数据,用来训练 RT-1。

结果表明,RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 同时使用来自 Kuka bin-picking 数据和 EDR 数据进行训练时,准确率达到 39%。比仅使用 EDR 数据训练时的 22% 准确率提高了近 2 倍。

当 RT-1 仅在 Kuka bin-picking 数据上进行训练,然后在 EDR robot bin-picking 数据上评估时,准确率为 0。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能

SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 算法是谷歌在今年提出的,在这个算法中,谷歌让机器人充当语言模型的「手和眼睛」,而语言模型提供有关任务的高级语义知识。

该团队在两个真实的 Kitchen 中进行了评估,Kitchen2 构成了一个比 Kitchen1 更具挑战性的泛化场景。由结果可得,SayCan 与 RT-1 在 Kitchen1 中实现了 67% 的执行成功率,优于其他基线。在 Kitchen2 中,SayCan 与 Gato 以及 SayCan 与 BCZ 的性能下降,而 RT-1 没有出现明显的下降。

rt-1: robotics transformer for real-world control at scale,机器学习,transformer,机器人,人工智能文章来源地址https://www.toymoban.com/news/detail-669251.html

到了这里,关于【谷歌新作】Transformer杀入机器人领域,RT-1:97%成功率,轻松完成700多条控制指令的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RPA机器人在电商领域有哪些应用?

    随着科技的不断发展,机器人流程自动化(RPA)已经成为许多领域的重要工具。在电商领域,RPA机器人也发挥了重要的作用。我将从两个方面探讨RPA机器人在电商领域的应用,以及它们如何提高电商运营的效率和效益。 1、订单处理 电商平台的订单处理是一项重要的任务,需

    2024年02月07日
    浏览(49)
  • 智能检测技术在机器人领域的应用

    [toc] 智能检测技术在机器人领域的应用 随着机器人技术的不断发展,智能检测技术在机器人领域的应用也越来越广泛。智能检测技术可以用于机器人的自主导航、避障、感知、决策等方面。本文将介绍智能检测技术在机器人领域的应用,包括技术原理及概念、实现步骤与流程

    2024年02月07日
    浏览(42)
  • 谷歌AI机器人Bard新增生成、调试和代码解释功能

    据悉,这次谷歌开发的AI聊天机器人Bard目前竟然可以帮助软件开发人员编程,包括生成代码、包括生成代码、调试和代码解释。 另据谷歌研究产品负责人Paige Bailey介绍说,编码一直是谷歌从用户那里收到的最重要的请求之一,也正是基于这种需求逐渐对Ai机器人进行升级。目前

    2024年02月13日
    浏览(45)
  • ROS机器人在智能家居领域的应用

    智能家居技术的发展已经进入了一个新的高潮,随着互联网的普及和人工智能技术的不断发展,智能家居已经不再是一种奢侈品,而是成为了每个家庭必备的设备之一。在这个领域,机器人技术的应用也越来越广泛,尤其是基于ROS(Robot Operating System)的机器人技术。本文将从以

    2024年02月19日
    浏览(44)
  • 谷歌改进聊天机器人 Bard:聊天内容中可嵌入图片

    谷歌正在改进聊天机器人 Bard, 可以在聊天结果中嵌入图片。结果显示: 聊天结果中确实可以提供图片,但结果和必应聊天依然存在差距。 用户虽然当前可以使用英语、日语和韩语和 Bard 聊天,但想要在搜索结果中提供图片,目前仅支持英文。  以输入“show me a pic of ithom

    2024年02月11日
    浏览(42)
  • 【Bard】挑战新高度-谷歌最新聊天机器人的优势与创新

    各位读者大家好,今天我来为大家介绍一下人工智能语言处理技术领域中的新成员Bard,我将从以下三个方面进行分析: 1.与New Bing,ChatGPT比较 2.自身独特优势 3.程序员能用它来做什么有趣的事情 1.与New Bing,ChatGPT比较 Bard是谷歌推出的聊天机器人,它在基本的功能上与New Bi

    2024年02月13日
    浏览(34)
  • 谷歌公开测试Google Bard聊天机器人【无需排队,全面公测】

    https://bard.google.com/ 更新!!!! bard全面放开了,可以用起来了,只需要满足网络就可以。 缺陷是暂时不支持中文 经过多年的谨慎发展,这家互联网巨头将允许用户访问聊天机器人,追逐竞争对手OpenAI和微软的引人注目的首次亮相。 谷歌已经开始允许一些美国和英国的用户

    2024年02月09日
    浏览(51)
  • 机器人在教育领域:智能教育与个性化辅导

    在当今的智能时代,人工智能技术的发展已经深入到各个行业,教育领域也不例外。随着大数据、人工智能、机器学习等技术的不断发展,教育领域的智能化进程加速,机器人在教育领域的应用也逐渐成为主流。本文将从机器人在教育领域的角度,探讨智能教育与个性化辅导

    2024年01月16日
    浏览(52)
  • ChatGPT在智能外呼机器人领域的应用

    随着人工智能技术的不断发展,自然语言处理(NLP)技术也逐渐成为各行各业的热门技术。其中,ChatGPT技术是近年来备受关注的技术之一。ChatGPT技术是一种基于自然语言处理和深度学习的人工智能技术,它可以处理自然语言文本,实现自动化问答和文本生成等功能。本文将介绍

    2024年02月11日
    浏览(45)
  • 冠达管理投资前瞻:三星加码机器人领域 大信创建设提速

    上星期五,沪指高开高走,盘中一度涨超1%打破3300点,但随后涨幅收窄;深成指、创业板指亦强势震动。截至收盘,沪指涨0.23%报3288.08点,深成指涨0.67%报11238.06点,创业板指涨0.95%报2263.37点;两市算计成交10492亿元,较此前一日增加2164亿元;北向资金净买入27.42亿元。职业方

    2024年02月14日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包