机器人跨越2D语义信息到3D几何信息的few-shot力作：F3RM-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器人跨越2D语义信息到3D几何信息的few-shot力作：F3RM。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文标题：
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

论文作者：
William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola

项目地址：
https://f3rm.csail.mit.edu

导读：
研究提出了一种新的方法F3RM（Feature Fields for Robotic Manipulation），将3D几何信息与2D基础模型的语义信息相结合，实现对非特定实验场景的泛化功能。根据少量标注样本的学习，机器人可以根据语言引导，完成6自由度抓取和放置任务。©️【深蓝AI】编译

1. 摘要

自监督和语言监督的图像模型包含丰富的有利于泛化学习的先验知识，许多机器人任务需要对3D几何结构有详细的了解，而2D图像特征通常缺乏这些信息。研究者在此项工作中通过利用提取的特征字段将准确的3D几何信息与2D基础模型的语义信息结合，弥补了机器人操作从2D到3D的鸿沟。F3RM提出可以利用强大的空间信息和先验的语义信息来实现对新物体的泛化，并最终用于机器人6-DOF的抓取放置。该方法使用从视觉语言模型CLIP提取出的特征，提供不同语义粒度级别的自然语言指导，实现对新对象的精细化识别抓取功能。

2. 工作概述

●使用安装在机械臂末端的RGB相机拍摄一系列照片扫描桌面，构建NeRF神经辐射场；

●训练NeRF，用来渲染RGB颜色和图像特征，这些图像特征是由预训练的视觉基础模型产生的；

●提出蒸馏特征场 (Distilled Feature Fields, DFFs)，将2D特征图转化嵌入到3D空间中；

●机器人参考语言指令抓取用户指定的物体。

机器人跨越2D语义信息到3D几何信息的few-shot力作：F3RM,移动机器人,机器人,3d,人工智能 ▲图1｜蒸馏特征场 ©️【深蓝AI】编译

3. 关键技术

问题总结：如何从多幅RGB图像中得到机械臂需要运动的刚体变换T？如何在少量标注样本学习训练后实现对新物体的精准抓取？

■3.1 F3RM

● 特征提取：

优化 $f$ ，其损失函数为：
$L_{feat}=\sum_{r\in R}||F^{\wedge}(r)-I^{f}(r)||_{2}^{2}$ 其中 $I^{f}=f_{vis}(I)$ ，表示对RGB图像 $I$ 的一种特征生成函数 $f$ ， $F^{\wedge}(r)$ 通过特征渲染近似估计得到。DFFs主要通过增加额外的视觉模型输出来扩展 NeRF，输出结果构建2D特征。

● 从CLIP中提取稠密的视觉特征：

使用MaskCLIP方法提取特征，并与语言嵌入对齐。同时插入位置编码以适应具有任意长宽比的较大图像。以上方法结合，使2D特征提取速度达到25fps速度。

■3.2 六自由度位姿表示

通过夹具坐标系中的局部3D特征场来表示夹具的姿态。对于6-DOF夹具位姿 $T$ ，对查询点云中每个点的特征场进行采样，并通过进行变换，如图2(b)所示。

机器人跨越2D语义信息到3D几何信息的few-shot力作：F3RM,移动机器人,机器人,3d,人工智能 ▲图2｜六自由度位姿表示 ©️【深蓝AI】编译

● 推断6自由度位姿：

包含平移向量的粗调步骤和旋转向量的精调过程。对工作空间内稠密的体素网格进行筛选，接着比较相似性，嵌入计算。

● 位姿优化：

优化损失函数为： $L_{pose}(T)=-cos(z_{T},Z_{M})$

其中， $z_{T}\in R^{N_{q}|f|},Z_{M}\in R^{N_{q}|f|}$ ， $N_q$ 是目标点。使用Adam优化器搜索与嵌入 $Z_M$ 的任务具有最高相似度的位姿。

■3.3 开放对象集的语言引导操纵（Open-Text Language-Guided Manipulation）

自然语言提供了一种将机器人操作扩展到开放对象集的方法，当目标对象的照片不准确或不可用时，自然语言可以作为一种有效的替代方案。该语言引导的小样本操作流程中，在测试时，机器人接收来自用户的语言查询，指定要操作的对象。该项研究的语言引导过程包括三个步骤：

●获得相关演示

●粗略抓取

●语言引导优化抓取位姿

机器人跨越2D语义信息到3D几何信息的few-shot力作：F3RM,移动机器人,机器人,3d,人工智能 ▲图3｜语言引导机器人操作流程 ©️【深蓝AI】编译

4. 实验效果

■4.1 示例学习

研究团队测试了5个6-DOF抓取和放置任务，并为每个任务提供了2个演示（如图4所示）。研究人员将NeRF重建的点云加载到VR中，并使用手动控制器将夹具移动到所需的位姿。研究人员比较了三种类型的特征性能，包括DINO ViT、CLIP ViT、CLIP ResNet，同时比较了三个baseline，包括分别使用密度,中间特征和RGB颜色特征的NeRF。与MIRA进行比较，对于每项任务，在10个场景中进行评估，包含任意姿态的新物体以及干扰物体。

表1 和图5 分别展示了成功率和机器人执行示例。虽然使用密度，RGB颜色特征和中间特征的baseline实现了比较好的效果，但是仍然难以识别一些对象的语义类别，尤其是在干扰因素较多的复杂场景中。DINO和CLIP特征域表现了较好的泛化能力，并且具有互补优势。DINO ViT对物体几何形状有比较好的zero-shot理解，有7/19的失败案例是因为抓取的旋转不准确以及偶尔的平移不准确造成的，相比之下，CLIP ViT和ResNet的失败率达到21/27。结果显示，CLIP更偏向于语义和分类信息，这对于抓取和放置物体很重要。另一方面，DINO很难区别目标对象和干扰对象，这些干扰对象的视觉外观与演示中使用的对象相似。