《3D Diffusion Policy》论文阅读

这篇具有很好参考价值的文章主要介绍了《3D Diffusion Policy》论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文仅是个人对该文章的阅读总结,并不能全篇概括作者的精华,还需大家详细阅读原文

---------------------------------------------------------------------------------------------------------------------------------

摘要

问题:模仿学习为教授机器人灵巧技能提供了一种高效途径,但是学习复杂的、具有普适性的技能通常需要大量的人类示范

解决:3D扩散策略(DP3)将3D视觉表示的强大之处融入到扩散策略中,这是一类有条件的动作生成模型。

核心:利用高效的点编码器从稀疏点云中提取紧凑的3D视觉表示。

取得成果:

(1)在涉及 72 个模拟任务的实验中,DP3仅使用 10 个示范就成功处理了大多数任务,并且相对于基线方法取得了 55.3% 的相对改进。

(2)在 4 个真实机器人任务中,DP3仅使用每个任务 40 个示范就展示了精确控制,成功率高达 85%,并且在空间、视点、外观和实例等多个方面展现了出色的泛化能力。

(3)DP3很少违反安全要求。

方法

问题定义:

                视觉运动策略 π : O  →  A

                视觉观察 o ∈ O 

                动作 a ∈ A

DP3组成:

(1)Perception:DP3利用点云数据感知环境,并利用高效的点编码器将这些视觉观测结果处理成视觉特征;

(2)Decision:DP3利用了expressive Diffusion Policy 作为动作生成的支干,该策略根据我们的3D视觉特征生成动作序列。

《3D Diffusion Policy》论文阅读,论文阅读,笔记

A Motivating Example

证明DP3的泛化能力:

        目标:让手持器准确的到达指定目标点

        为了评估模仿学习算法不仅适应训练数据的有效性,还要泛化到新场景的能力,在3D空间中可视化了训练点和成功评估点

《3D Diffusion Policy》论文阅读,论文阅读,笔记

仅用五个训练点,DP3就能到达分布在3D空间中的点,展示了DP3在数据有限的情况下的优越泛化能力和效率。

Perception

《3D Diffusion Policy》论文阅读,论文阅读,笔记

DP3侧重于仅使用单视图摄像机对所有任务进行策略学习。

Representing 3D scenes with point clouds(点云表示)
  • DP3采用稀疏点云作为三维表示,因为与(RGB-D、深度和体素)相比,点云更有效。
  • 对于模拟和现实世界,从单个相机获得大小为84 × 84的深度图像。然后,使用相机外参和内参将深度转换为点云。为了获得更好的外观泛化效果,不使用彩色通道。
Point cloud processing(点云处理)
  • 由于从深度转换而来的点云可能包含冗余点,因此需要裁剪掉这些点,仅保留在一个边界框内的点
  • 通过最远点采样(FPS)对点进行降采样,这有助于充分覆盖 3D 空间,并减少了点云采样的随机性
  • 将点云降采样至 512 或 1024 个点
Encoding point clouds into compact representations(将点云编码为紧凑的表示)

《3D Diffusion Policy》论文阅读,论文阅读,笔记

使用轻量级MLP网络将点云编码为紧凑的3D表示

Decision

《3D Diffusion Policy》论文阅读,论文阅读,笔记

Conditional action generation(条件动作生成)
  • 该模型在三维视觉特征和机器人姿态 q 的条件下,将随机高斯噪声降噪为动作 a 。

《3D Diffusion Policy》论文阅读,论文阅读,笔记

Training objective(loss损失):
  • 训练目标是预测添加到原始数据中的噪声

《3D Diffusion Policy》论文阅读,论文阅读,笔记

Implementation details(实现细节)
  • 使用基于卷积网络的扩散策略
  • 使用 DDIM 作为噪声调度器,并使用样本预测代替epsilon预测来更好地生成高维动作,训练时使用100个时间步,推理时使用10个时间步
  • DP3和所有基线训练了3000个epoch,批大小为128,以确保所有任务的收敛性。

实验

Simulation benchmark

仿真与现实场景之间仍然存在显著差距

(1)真实机器人实验的重要性

(2)大规模多样化模拟任务的必要性 收集了7个领域的72个任务,涵盖了不同的机器人技能,(双手动操作、可变形对象操作、铰接对象操作、平行抓手操作)

Expert demonstrations:(这个地方没看懂,就直接全翻译过来,大家自己看吧....)

专家演示是由强化学习(RL)

  • 算法训练的代理收集的,适用于除了 DexDeform 外的所有领域,其中我们使用人类远程操作的数据。
  • 对于 Adroit,我们使用 VRL3 [67];
  • 对于 MetaWorld,我们使用 BAC [29];
  • 对于所有其他领域,我们使用 PPO [54]。
  • 我们使用 RL 代理生成成功轨迹,并确保所有模仿学习算法使用相同的演示。

Baselines

  • 这项工作的主要重点是强调3D模式在扩散政策中的重要性。
  • baseline是于图像的扩散策略,简称为扩散策略

Evaluation metric:

        对每个实验使用seeds号为 0、1、2 运行 3 个seeds。对于每个seeds,我们在每 200 个训练epochs次评估 20 个 episode,然后计算最高的 5 个成功率的平均值。我们报告了在 3 个seeds上成功率的平均值标准差

Efficiency and Effectiveness

在以下三个方面DP3表现出惊人的效率:

(1) High accuracy
  • DP3在近30个任务中实现了超过90%的成功率
  • 扩散策略在不到15个任务中实现了超过90%的成功率
  • DP3没有记录任何成功率低于10%的任务
  • 扩散策略有超过10个成功率低于10%的任务

《3D Diffusion Policy》论文阅读,论文阅读,笔记

(2) Learning efficiency

虽然每个任务都训练了3000个epoch,但是观察发现DP3在所有任务大概300 epoch已经达到收敛 相反,扩散策略倾向于以慢得多的速度收敛或收敛到次优结果。

《3D Diffusion Policy》论文阅读,论文阅读,笔记

(3) Efficient scaling with demonstrations
  • 在Adroit任务中,DP3和扩散策略都执行合理,而DP3在较少的演示中达到了相当的精度。
  • 在简单的MetaWorld任务中,即使演示次数增加,扩散策略也无法学习,明显落后于DP3

《3D Diffusion Policy》论文阅读,论文阅读,笔记

(4) Competitive inference speed

        DP3实现的推理速度略微超过扩散策略,这主要归功于使用稀疏点云和紧凑的3D表示。

《3D Diffusion Policy》论文阅读,论文阅读,笔记

消融实验

选择了6个任务进行消融实验:

        Adroit [ Hammer (H), Door (D), Pen (P) ];

        MetaWorld [ Assembly (A), Basketball (B), Shelf Place (S) ]

这些任务包括高维和低维控制任务,每个任务只使用10个演示

实验1:不同表示之间的对DP3的影响

《3D Diffusion Policy》论文阅读,论文阅读,笔记

实验2:point cloud 编码器选择

《3D Diffusion Policy》论文阅读,论文阅读,笔记

实验3:DP3设计

(a) 对点云进行裁剪在很大程度上提高了准确性;

(b) 整合 LayerNorm 层可以帮助稳定不同任务之间的训练;

(c) 在噪声采样器中进行样本预测可以加快收敛速度;

(d) DP3 编码器中的投影头通过将特征投影到较低维度加速了推断,而不会影响准确性;

(e) 移除颜色通道确保了鲁棒的外观泛化;

(f) 在低维控制任务中,作为噪声采样器的 DPM-solver++ 与 DDIM 竞争力相当,而 DPMsolver++ 不能很好地处理高维控制任务。

《3D Diffusion Policy》论文阅读,论文阅读,笔记《3D Diffusion Policy》论文阅读,论文阅读,笔记

实验4:Training policies on demonstrations from different experts.

        我们希望研究专家的行为方式是否会影响模仿学习方法的性能。为此,我们分别在 MetaWorld 任务中使用 RL 训练的代理和脚本策略生成演示,并在这些演示上进行训练。我们可以观察到,一个更好的专家通常能够帮助使用模仿学习算法训练出更好的策略,但 DP3 与地面真值专家之间仍然存在差距。

《3D Diffusion Policy》论文阅读,论文阅读,笔记

实验5:不同的图片分辨率对扩散策略的影响

《3D Diffusion Policy》论文阅读,论文阅读,笔记

真实场景实验可以之间看论文,这里就不针对该章节,进行详细描述了

结论

  • 介绍了 3D Diffusion Policy(DP3),这是一种高效的视觉模仿学习算法,使用少量示范就能够在模拟和真实环境中管理各种机器人任务。
  • DP3 的核心在于将精心设计的 3D 表示与扩散策略的表现力相结合
  • 在 72 个模拟任务中,DP3 的表现优于其 2D 对应物,相对边际提高了 55.3%。
  • 在真实环境中,DP3 在使用 Allegro 手执行可变形物体的复杂操作时表现出高准确性。
  • 证明了 DP3 具有对各个方面的强大泛化能力,并在真实环境中造成的安全违规较少

局限

        尽管已经开发了一种高效的架构,但控制的最佳 3D 表示仍然有待发现。此外,本文未深入探讨具有极长视角的任务,这留给未来的探索。(未来继续加油)

---------------------------------------------------------------------------------------------------------------------------------

论文地址:
https://arxiv.org/abs/2403.03954

Github:(作者的github写的非常详细,常见错误的解决方法都写出来了)

GitHub - YanjieZe/3D-Diffusion-Policy: [arXiv 2024] 3D Diffusion Policy

项目地址:

3D Diffusion Policy文章来源地址https://www.toymoban.com/news/detail-847867.html

到了这里,关于《3D Diffusion Policy》论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DREAMFUSION TEXT-TO-3D USING 2D DIFFUSION 论文笔记

    Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthe- sis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circum- vent these limitations by usi

    2024年02月07日
    浏览(55)
  • A Closer Look at Invalid Action Masking in Policy Gradient Algorithms 论文阅读

    原文链接:http://arxiv.org/abs/2006.14171 这篇文章证明了无效动作掩蔽可以看作是在计算动作概率分布时应用状态相关的可微函数来产生行为策略。接下来,设计了实验来比较无效动作掩饰和无效动作惩罚的性能。 无效动作惩罚:这是一种常见的方法,对无效动作给予负奖励,以

    2024年03月14日
    浏览(53)
  • 【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【开源】 本文提出的SAM3D模型是针对三维体积医学图像分割的一种新方法。其核心在于将“分割任何事物”(SAM)模型的预训练编码器与一个轻量级的3D解码器相结合。与

    2024年01月20日
    浏览(46)
  • 论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    1.简介 在3D人体姿态估计中存在遮挡和模糊问题,使用多相机可能会缓解这些困难,因为不同的视角可以补偿这些遮挡并用于相互一致性。目前的3D人体姿态估计中大多数都是单视角的,有一部分是多视角的,但是他们的方法依赖于相机之间的相对位置,这要用到相机的外参。

    2024年02月04日
    浏览(51)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(59)
  • 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性 整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省

    2024年02月21日
    浏览(47)
  • [论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO)         避免较多的策略更新。 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。         所以在PPO中,我们

    2024年02月01日
    浏览(38)
  • 【论文笔记】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    原文链接:https://arxiv.org/abs/2307.02270   目前的从单目相机生成伪传感器表达的方法依赖预训练的深度估计网络。这些方法需要深度标签来训练深度估计网络,且伪立体方法通过图像正向变形合成立体图像,会导致遮挡区域的像素伪影、扭曲、孔洞。此外,特征级别的伪立体

    2024年02月08日
    浏览(47)
  • [论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO)         避免较多的策略更新。 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。         所以在PPO中,我们

    2024年02月03日
    浏览(52)
  • Latent Diffusion(CVPR2022 oral)-论文阅读

    论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者

    2024年02月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包