机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM

这篇具有很好参考价值的文章主要介绍了机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文标题:
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

论文作者:
William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola

项目地址:
https://f3rm.csail.mit.edu

导读:
研究提出了一种新的方法F3RM(Feature Fields for Robotic Manipulation),将3D几何信息与2D基础模型的语义信息相结合,实现对非特定实验场景的泛化功能。根据少量标注样本的学习,机器人可以根据语言引导,完成6自由度抓取和放置任务。©️【深蓝AI】编译

1. 摘要

自监督和语言监督的图像模型包含丰富的有利于泛化学习的先验知识,许多机器人任务需要对3D几何结构有详细的了解,而2D图像特征通常缺乏这些信息。研究者在此项工作中通过利用提取的特征字段将准确的3D几何信息与2D基础模型的语义信息结合,弥补了机器人操作从2D到3D的鸿沟。F3RM提出可以利用强大的空间信息和先验的语义信息来实现对新物体的泛化,并最终用于机器人6-DOF的抓取放置。该方法使用从视觉语言模型CLIP提取出的特征,提供不同语义粒度级别的自然语言指导,实现对新对象的精细化识别抓取功能。

2. 工作概述

●使用安装在机械臂末端的RGB相机拍摄一系列照片扫描桌面,构建NeRF神经辐射场;

●训练NeRF,用来渲染RGB颜色和图像特征,这些图像特征是由预训练的视觉基础模型产生的;

●提出蒸馏特征场 (Distilled Feature Fields, DFFs),将2D特征图转化嵌入到3D空间中;

●机器人参考语言指令抓取用户指定的物体。

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲图1|蒸馏特征场 ©️【深蓝AI】编译

3. 关键技术

问题总结:如何从多幅RGB图像中得到机械臂需要运动的刚体变换T?如何在少量标注样本学习训练后实现对新物体的精准抓取?

■3.1 F3RM

● 特征提取:

优化 f f f,其损失函数为:
L f e a t = ∑ r ∈ R ∣ ∣ F ∧ ( r ) − I f ( r ) ∣ ∣ 2 2 L_{feat}=\sum_{r\in R}||F^{\wedge}(r)-I^{f}(r)||_{2}^{2} Lfeat=rR∣∣F(r)If(r)22其中 I f = f v i s ( I ) I^{f}=f_{vis}(I) If=fvis(I),表示对RGB图像 I I I的一种特征生成函数 f f f F ∧ ( r ) F^{\wedge}(r) F(r)通过特征渲染近似估计得到。DFFs主要通过增加额外的视觉模型输出来扩展 NeRF,输出结果构建2D特征。

● 从CLIP中提取稠密的视觉特征:

使用MaskCLIP方法提取特征,并与语言嵌入对齐。同时插入位置编码以适应具有任意长宽比的较大图像。以上方法结合,使2D特征提取速度达到25fps速度。

■3.2 六自由度位姿表示

通过夹具坐标系中的局部3D特征场来表示夹具的姿态。对于6-DOF夹具位姿 T T T,对查询点云中每个点的特征场进行采样,并通过进行变换,如图2(b)所示。

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲图2|六自由度位姿表示 ©️【深蓝AI】编译

● 推断6自由度位姿:

包含平移向量的粗调步骤和旋转向量的精调过程。对工作空间内稠密的体素网格进行筛选,接着比较相似性,嵌入计算。

● 位姿优化:

优化损失函数为: L p o s e ( T ) = − c o s ( z T , Z M ) L_{pose}(T)=-cos(z_{T},Z_{M}) Lpose(T)=cos(zT,ZM)

其中, z T ∈ R N q ∣ f ∣ , Z M ∈ R N q ∣ f ∣ z_{T}\in R^{N_{q}|f|},Z_{M}\in R^{N_{q}|f|} zTRNqf,ZMRNqf N q N_q Nq是目标点。使用Adam优化器 搜索与嵌入 Z M Z_M ZM的任务具有最高相似度的位姿。

■3.3 开放对象集的语言引导操纵(Open-Text Language-Guided Manipulation)

自然语言提供了一种将机器人操作扩展到开放对象集的方法,当目标对象的照片不准确或不可用时,自然语言可以作为一种有效的替代方案。该语言引导的小样本操作流程中,在测试时,机器人接收来自用户的语言查询,指定要操作的对象。该项研究的语言引导过程包括三个步骤:

●获得相关演示

●粗略抓取

●语言引导优化抓取位姿

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲图3|语言引导机器人操作流程 ©️【深蓝AI】编译

4. 实验效果

■4.1 示例学习

研究团队测试了5个6-DOF抓取和放置任务,并为每个任务提供了2个演示(如图4所示)。研究人员将NeRF重建的点云加载到VR中,并使用手动控制器将夹具移动到所需的位姿。研究人员比较了三种类型的特征性能,包括DINO ViT、CLIP ViT、CLIP ResNet,同时比较了三个baseline,包括分别使用密度,中间特征和RGB颜色特征的NeRF。与MIRA进行比较,对于每项任务,在10个场景中进行评估,包含任意姿态的新物体以及干扰物体。

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲图4|五个抓取和放置任务 ©️【深蓝AI】编译

表1 和图5 分别展示了成功率和机器人执行示例。虽然使用密度,RGB颜色特征和中间特征的baseline实现了比较好的效果,但是仍然难以识别一些对象的语义类别,尤其是在干扰因素较多的复杂场景中。DINO和CLIP特征域表现了较好的泛化能力,并且具有互补优势。DINO ViT对物体几何形状有比较好的zero-shot理解,有7/19的失败案例是因为抓取的旋转不准确以及偶尔的平移不准确造成的,相比之下,CLIP ViT和ResNet的失败率达到21/27。结果显示,CLIP更偏向于语义和分类信息,这对于抓取和放置物体很重要。另一方面,DINO很难区别目标对象和干扰对象,这些干扰对象的视觉外观与演示中使用的对象相似。

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲图5|对新物体的泛化 ©️【深蓝AI】编译

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲表1|抓取和放置任务的成功率 ©️【深蓝AI】编译

■4.2 语言引导机器人操作

研究者设置13个桌面场景来测试语言引导操作对象的可行性。包含3种对象类别,分别是与学习示例中相似的新对象,有相似几何形状的新对象,干扰对象。

机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM,移动机器人,机器人,3d,人工智能▲表2|语言引导机器人操作的成功率 ©️【深蓝AI】编译

总的来说,研究团队在50种语言引导抓取中成功了31次。值得注意的是,机器人仅通过杯子和螺丝刀的学习示例,就可以推广到碗、胶带卷等其他的物体类别。

5. 总结与未来展望

在这项工作中,作者提出了一种将2D视觉先验信息与3D几何信息相结合的方法,机器人可以通过语言引导在开放场景下进行操作。无需微调,蒸馏特征场DFFs就可以对目标类别、材质和位姿的多样性进行泛化概括。当特征源自视觉语言模型时,提取的特征字段可以提供不同语义粒度级别的语言指导。

未来可以改善的工作:

1)目前系统需要花费1分40秒拍摄场景图像,耗时90秒对特征域进行建模,可以通过增强NeRFs的泛化功能,让它只需要几个视图就可以快速恢复几何形状;

2)研究的视图合成方法其实与GAN合成图像等方法没有太大区别,未来可以提出更有效的替换方法解决通用视觉和几何理解问题。

编译|xlh
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。文章来源地址https://www.toymoban.com/news/detail-816096.html

到了这里,关于机器人跨越2D语义信息到3D几何信息的few-shot力作:F3RM的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 5.【自动驾驶与机器人中的SLAM技术】2D点云的scan matching算法 和 检测退化场景的思路

    这里实现了基于g2o优化器的优化方法。 图优化中涉及两个概念-顶点和边。我们的优化变量认为是顶点,误差项就是边。我们通过g2o声明一个图模型,然后往图模型中添加顶点和与顶点相关联的边,再选定优化算法(比如LM)就可以进行优化了。想熟悉g2o的小伙伴们感兴趣的话

    2024年02月03日
    浏览(45)
  • 机器人传感器及其信息融合技术

    第一章 传感器的基础知识 第五章 多传感器信息融合技术概述 信息融合三个核心特征: 信息融合是在多个层次上完成对多源信息处理的过程,其中每一个层次都表示不同级别的信息抽象。 信息融合包括探测、互联、相关、估计以及信息组合。 信息融合的结果包括较低层次上

    2024年02月01日
    浏览(55)
  • 在钉钉群通过机器人发送信息

    在第三方API接口对接中,需要及时获取第三方接口请求结果情况,所以在代码中融合钉钉机器人,对请求的异常结果及时发送通知。 自定义机器人参考链接 通用响应参数-封装API的错误码 通用响应参数-状态码 通过返回类定义 在钉钉群可以通过手机号码@指定人员 关于钉钉群

    2024年02月01日
    浏览(53)
  • (02)Cartographer源码无死角解析-(78) ROS数据发布→2D点云数据、tf、机器人tracking frame轨迹发布

    讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解(02)Cartographer源码无死角解析-链接如下: (02)Cartographer源码无死角解析- (00)目录_最新无死角讲解:https://blog.csdn.net/weixin_43013761/article/details/127350885   文末正下方中心提供了本人 联系方式, 点击本人照片

    2024年02月12日
    浏览(43)
  • Three.js--》实现3d球形机器人模型展示

    目录 项目搭建 初始化three.js基础代码 设置环境纹理 加载机器人模型 添加光阵 今天简单实现一个three.js的小Demo,加强自己对three知识的掌握与学习,只有在项目中才能灵活将所学知识运用起来,话不多说直接开始。 项目搭建 本案例还是借助框架书写three项目,借用vite构建工

    2024年02月07日
    浏览(88)
  • 【全3D打印坦克——基于Arduino履带式机器人】

    在教程中,我将向您展示我如何构建超酷的无线电控制履带式车辆,机器人平台或坦克,应有尽有。我从头开始设计这个东西,完全可以3D打印,所以你可以轻松地打印所有东西并自己构建一个。 您可以观看以下视频或阅读下面的书面教程。 我这个项目的目标是制作一个多功

    2024年02月06日
    浏览(39)
  • Unity游戏源码分享-3d机器人推箱子游戏

    Unity游戏源码分享-3d机器人推箱子游戏 一个非常意思的3D游戏    工程地址:https://download.csdn.net/download/Highning0007/88098014

    2024年02月15日
    浏览(49)
  • ros机器人在navigation下导航costmap_2d动态层(障碍物层)障碍物无法及时消除的情况解决办法

    设备 杉川-3a激光雷达 win10笔记本电脑 ubuntu18.04 ros-melodic 问题 ros机器人在move_base下导航,有静态图层与动态图层,静态图层显示之前已经建立好的地图,而动态层显示现在激光雷达实时扫描到的障碍物。 假设机器人雷达最大范围为8m,在某一时刻,以机器人为原点,在机器人

    2024年02月06日
    浏览(42)
  • 为什么不要相信AI机器人提供的健康信息?

    自从OpenAI、微软和谷歌推出了AI聊天机器人,许多人开始尝试一种新的互联网搜索方式:与一个模型进行对话,而它从整个网络上学到的知识。 专家表示,鉴于之前我们倾向于通过搜索引擎查询健康问题,我们也不可避免地会向ChatGPT、Bing和Bard等工具提问。然而,这些工具会

    2024年02月08日
    浏览(49)
  • jenkins配置钉钉机器人推送job构建信息

    系统设置—插件管理—可选插件—搜索DingTalk 点击新增 最后,先应用,再保存 最后,应用-保存 如果构建了job没有推送钉钉信息,重启下jenkins试试 http://ip:9000/restart

    2023年04月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包