为机器人装“大脑” 谷歌发布RT-2大模型

这篇具有很好参考价值的文章主要介绍了为机器人装“大脑” 谷歌发布RT-2大模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大语言模型不仅能让应用变得更智能,还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后,专用于机器人的RT-2大模型于近期面世,它能让机器人学习互联网上的文本和图像,并具备逻辑推理能力。

该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下,RT-2也通过学习让它根据指令完成任务。

谷歌DeepMind机器人技术主管Vincent举例称,如果让以前的机器人丢垃圾,必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法,不必逐一特训不同的场景了。

AI的发展让机器人的“大脑”实现了物种进化般的迭代,另一面是,机器人失控的风险也随之增加。

RT-2大模型实现机器人自主学习

ChatGPT的火爆,让世界见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌脑洞大开,专门给机器人造了个大模型,让机器人拥有了自主学习能力。

不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer 2(简称RT-2)的新型视觉-语言-动作(VLA)模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。

谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。

为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。

比如,命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2+1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。

不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。

为机器人装“大脑” 谷歌发布RT-2大模型,机器人为机器人装“大脑” 谷歌发布RT-2大模型,机器人

 搭载RT-2的机器人能按人类指令行事

即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以“扔垃圾”这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。

RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。

机器人加速进化再触AI安全底线

事实上,给机器人装上大脑这件事,谷歌并不是第一次尝试了。就在去年12月,谷歌发布了RT-1大模型,它可以标记机器人输入和输出的动作,在运行时实现高效推理,并使实时控制成为可能。

RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,由13台机器人在17个月内收集而成。也就是说,RT-1大模型可以让单一机器人,学习其他机器人在过去积攒的经验,从而具备相应的能力。

为机器人装“大脑” 谷歌发布RT-2大模型,机器人为机器人装“大脑” 谷歌发布RT-2大模型,机器人

 RT-1大模型论文

当时,谷歌让搭载RT-1的机器人进行一系列复杂操作,包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称,RT-1 以 97% 的成功率执行了 700 多个训练指令,并且可以泛化到新的任务。

但对于没有具体学习过的场景,RT-1还是很难自主依据推理完成任务。根据测试,它在不熟悉的场景下,操作的准确率只有32%。

如果说当时的RT-1还是个“教什么学什么”的小学生,RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中,RT-2 的性能表现几乎翻了一番,从RT-1的32%提高到了62%,而此时距离RT-1的发布时间仅仅过去了半年多。

谷歌 DeepMind机器人技术主管Vincent 解释,RT-2 建立在 RT-1 模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为,即使是从未接受过训练的任务。“简而言之,RT-2 的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。”

得益于大模型的快速进步,机器人产业迎来了质变,按照谷歌的迭代速度,或许明年就能看到更强大的RT-3。

研究机器人的不止谷歌,特斯拉也对机器人兴趣浓厚。今年5月,特斯拉发布了一个视频,5个人形机器人在工厂中直立行走,它们装备了很多传感器,能够探测周围环境,执行分拣物品等任务。特斯拉的机器人也在走AI路线,这家电动汽车厂商的CEO马斯克称,特斯拉正在尝试打通电动汽车的辅助驾驶软件(FSD)系统和人形机器人的底层模块,让机器人智商在线。

而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型,机器人的能力预计又将大幅进步。

但越来越聪明的机器人,也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论,金属外壳的人形机器人直接具备了物理杀伤力。

有人在社交媒体发问,“人类是否亲手打开了一个潘多拉魔盒?”

如何规训机器人,仍然回到了大模型安全性这一老问题上,但这个问题至今还未在全球的研究与应用领域达成共识。

技术另一面的未知危机仍未解除,装上AI大脑的机器人出现了,你会期待还是警惕?文章来源地址https://www.toymoban.com/news/detail-656593.html

到了这里,关于为机器人装“大脑” 谷歌发布RT-2大模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大模型如何商业变现?小i机器人发布华藏大模型生态

    华藏通用大模型生态体系由“1+1+3”三部分组分,即:一个能力基座+一项产品支撑+三项服务保障。 今年以来,市场上各类人工智能大模型如雨后春笋,但如何将大模型进行科学的商业变现,成为摆在行业面前的一道难题。在刚刚召开的一场新闻发布会上,小i机器人给出了一

    2024年02月06日
    浏览(39)
  • 当GPT-4V充当机器人大脑,可能你都没AI会规划

    来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。 GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,

    2024年02月01日
    浏览(37)
  • 快讯 | 微软开源 Deep Speed Chat;商汤回应自研大模型图片生产质疑;谷歌 Bard 聊天机器人实验更新页面上线

    一分钟速览新闻点 商汤回应自研大模型图片生产质疑 昆仑万维与阿里云达成战略合作,将新建智算中心支撑大模型创新 中科院自动化研究所针对康复机器人提出新的驾驶空间概念 百度Apollo将在上海车展发布智能汽车开放方案 谷歌 Bard 聊天机器人实验更新页面上线,数学和

    2024年02月11日
    浏览(51)
  • 2023超级AI大脑-开源AI工具箱网站 支持机器人聊天和AI绘画等

    超级AI大脑是一个开源AI工具箱,基于Spring Boot架构,支持web,Android,IOS,H5多端应用,使用了OpenAI的ChatGPT模型实现了智能聊天机器人。用户可以在界面上与聊天机器人进行对话,聊天机器人会根据用户的输入自动生成回复。同时也支持画图,用户输入文本,便可以自动制作文

    2024年02月11日
    浏览(83)
  • OpenAI发布了新的嵌入式模型和降价通知;百万日活对话机器人的LLM落地实践

    🦉 AI新闻 🚀 OpenAI发布了新的嵌入式模型和降价通知 摘要 : openai 推出了两个新的嵌入模型,分别是 text-embedding-3-small 和 text-embedding-3-large。 openai 更新了 GPT-3.5 Turbo 模型,更低的价格和改进的性能。 openai 推出了更新的 GPT-4 Turbo 预览模型,以及更新的文本审查模型。 opena

    2024年02月22日
    浏览(58)
  • 谷歌AI机器人Bard新增生成、调试和代码解释功能

    据悉,这次谷歌开发的AI聊天机器人Bard目前竟然可以帮助软件开发人员编程,包括生成代码、包括生成代码、调试和代码解释。 另据谷歌研究产品负责人Paige Bailey介绍说,编码一直是谷歌从用户那里收到的最重要的请求之一,也正是基于这种需求逐渐对Ai机器人进行升级。目前

    2024年02月13日
    浏览(42)
  • 谷歌公开测试Google Bard聊天机器人【无需排队,全面公测】

    https://bard.google.com/ 更新!!!! bard全面放开了,可以用起来了,只需要满足网络就可以。 缺陷是暂时不支持中文 经过多年的谨慎发展,这家互联网巨头将允许用户访问聊天机器人,追逐竞争对手OpenAI和微软的引人注目的首次亮相。 谷歌已经开始允许一些美国和英国的用户

    2024年02月09日
    浏览(46)
  • 谷歌改进聊天机器人 Bard:聊天内容中可嵌入图片

    谷歌正在改进聊天机器人 Bard, 可以在聊天结果中嵌入图片。结果显示: 聊天结果中确实可以提供图片,但结果和必应聊天依然存在差距。 用户虽然当前可以使用英语、日语和韩语和 Bard 聊天,但想要在搜索结果中提供图片,目前仅支持英文。  以输入“show me a pic of ithom

    2024年02月11日
    浏览(40)
  • 【Bard】挑战新高度-谷歌最新聊天机器人的优势与创新

    各位读者大家好,今天我来为大家介绍一下人工智能语言处理技术领域中的新成员Bard,我将从以下三个方面进行分析: 1.与New Bing,ChatGPT比较 2.自身独特优势 3.程序员能用它来做什么有趣的事情 1.与New Bing,ChatGPT比较 Bard是谷歌推出的聊天机器人,它在基本的功能上与New Bi

    2024年02月13日
    浏览(31)
  • 视觉语言机器人的大爆发:从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa

    一年多前,OpenAI重塑了聊天机器人,彻底推动大模型技术的突飞猛进,一个月前,OpenAI又重塑了视频生成,当sora的热度还在持续时,没想到OpenAI在机器人领域也出手了,和Figure联合打造的人形机器人,边与人类自然流畅对话、边干活(给人类苹果、整理桌面) 如此,现在大模型

    2024年04月16日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包