论文解读《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 无需位姿标注的model-free 6D位姿估计

这篇具有很好参考价值的文章主要介绍了论文解读《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 无需位姿标注的model-free 6D位姿估计。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文:《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》

摘要:

  • 解决问题:标注困难且没有CAD模型。

  • 开发了一种基于关键点的6D对象姿态检测方法,Object Keypoint based POSe Estimation (OK-POSE)。通过使用大量具有多视点之间的相对变换信息的图像对(相对变换信息可以很容易地从任何廉价的双目相机或大多数智能手机设备中获得,从而大大降低了标签成本)来训练网络,并在训练中应用了多个新的损失函数,使模型可以自动检测几何和视觉一致的对象的3D关键点在推理的时候,将检测对象的3D关键点和参考图像的3D关键点建立对应关系,使用Kabsch算法计算其相对位姿,在已知参考图像物体位姿的情况下,便可得到检测对象的6D位姿。

    具体来说,OK-POSE学习自动检测具有不变性、独特性和局部性的物体的3D关键点,以估计真实RGB图像中的6D物体姿态。与以前的6D姿态检测方法不同,我们的方法从图像对之间的相对变换中学习3D关键点,而不是从明确的3D标记信息或3D CAD模型中学习。考虑到真实图像通常包含多个对象,OK-POSE执行两项任务,即对象检测和关键点检测。

    • 对于关键点检测任务,其分支由一系列精心设计的关键点损失函数训练,包括显著性损失、深度回归损失、跨视图一致性损失、分离损失和转换恢复损失。这些损失函数的总体目标是寻找最佳的3D关键点,这些关键点在不同的视点上一致地位于对象的相同部分,而无需关键点注释,即使它们是不可见的。
    • 对于对象检测任务,我们设计了类似于Faster R-CNN的模型分支(称为对象分支)和损失函数。对象分支为检测到的关键点提供类别指示。

    在推理阶段,我们的网络将RGB图像作为输入,并检测输入图像中目标对象的类别、2D位置和3D关键点,通过该图像,可以从每个不同对象的参考图像中的相应关键点几何推断6D对象姿态。参考图像以物体的姿态信息为基准进行标注,为输入图像设置参考坐标系。由于我们的网络可以预测图像中的所有3D关键点,包括不可见的关键点,因此在推理阶段中只有一个参考图像就足够了。

  • 效果:与依赖对象的3D CAD模型或大量3D标记的方法相比,OK-POSE实现了可接受的性能。这些结果表明,当没有三维CAD模型或大量三维标注时,我们的方法可以作为一种合适的替代方法。(其实效果较差。)

网络架构:

kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能

  • 对于主干网络,使用ResNet101和特征金字塔网络FPN来提取图像特征,通过RPN提取感兴趣区域ROI输入到后面两个分支中。
  • 对于关键点分支,设计了一个网络,可以预测特征图中每个像素点为第i个关键点的概率,除此之外,还会预测每个点的深度。
  • 对于物体分支,会检测每个物体的类别的bbox。

怎么从相对变换中学习3D关键点?

给出了一个物体的图像对(I,I′),其视点之间具有已知的相对变换矩阵T。我们的目标是预测两幅图像中具有几何和视觉一致性的两个最佳3D关键点列表。几何一致性意味着3D关键点应保持对象的旋转不变性、位置不变性和比例不变性。视觉一致性意味着匹配关键点的位置应具有相似的视觉外观。为此,我们考虑以下标准来学习正确的三维关键点:

  • 一种跨视图一致性损失(cross-view consistency loss),用于测量相对变换下两个关键点列表之间的差异。

    kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能

    在这种损失函数和具有广泛变换的训练对的帮助下,学习到的3D关键点将稳定地落在对象的一致位置上,即使该位置在图像中是不可见的。这使得每个对象只有一个参考图像时能够进行稳健的推理。

  • 一种深度回归损失(depth regression loss),使预测的关键点深度和根据对极几何(epipolar geometry,描述了两张图片的视觉几何关系)的相对变换计算的深度之间的距离最小化。

    kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能
  • 一种独特性损失(distinctiveness loss),它鼓励关键点出现在视觉显著区域,并具有显著性、易于检测和多样性的特性。(较复杂,建议看原文3.2节)

  • 一种分离损失(separation loss),鼓励一个图像中关键点之间的距离大于参数δ,避免它们距离太近甚至重叠。换言之,如果关键点在3D空间中比δ更接近,我们会惩罚它们:

    kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能
  • 一种变换恢复损失(transformation recovery loss),它使用下式惩罚从两个关键点列表中恢复的变换[R′|t′]与真实的[R|t]之间的差别:

    kabsch w . a solution of the best rotation to relate two sets of vectors,6D位姿估计,3d,计算机视觉,人工智能

    该函数测量估计的相对旋转R′和真实旋转R之间的角距离,以及估计的平移t′和真实平移t之间的欧几里得距离。可以通过Kabsch算法(《A solution for the best rotation to relate two sets of vectors》)从两个预测关键点列表中计算R′和t′。文章来源地址https://www.toymoban.com/news/detail-765524.html

到了这里,关于论文解读《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 无需位姿标注的model-free 6D位姿估计的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文解读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

    我们提出了一种新的高性能3D对象检测框架,称为PointVoxel RCNN(PV-RCNN),用于从点云中精确检测3D对象。我们提出的方法深度集成了三维体素卷积神经网络(CNN)和基于PointNet的集合抽象,以学习更具判别力的点云特征。它利用了3D体素CNN的高效学习和高质量建议以及基于Poi

    2024年01月23日
    浏览(74)
  • Deep Learning for 3D Point Clouds: A Survey

    Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 之前组会要分享的一篇综述,太长了没读完,不知道啥时候能写完。。 最近,点云学习因其在计算机视觉、自动驾驶和机器人等许多领域的广泛应用而引起越来越多

    2024年02月05日
    浏览(38)
  • 论文翻译——Test Selection for Deep Learning Systems

    Abstract 因为深度学习涉及到复杂并且大量的计算,所以对于深度学习的检测十分困难。而且测试数据一般都只能人工选择,并且只能一个一个标注。这就是提出了一个问题,如果我们能够自动选择候选数据去测试深度学习模型。最近的研究都是集中在定义衡量测试集彻底度的

    2024年02月08日
    浏览(51)
  • 论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

    论文十问十答: Q1论文试图解决什么问题? 多标签文本分类问题 Q2这是否是一个新的问题? 不是 Q3这篇文章要验证一个什么科学假设? 因为文本标签越多,分类就越难,所以就将文本类型进行分层分类,这样就可以加大文本分类的准确度。 Q4有哪些相关研究?如何归类?谁

    2023年04月09日
    浏览(37)
  • 材料论文阅读/中文记录:Scaling deep learning for materials discovery

    Merchant A, Batzner S, Schoenholz S S, et al. Scaling deep learning for materials discovery[J]. Nature, 2023: 1-6. 全文速览 这篇文章主要讲了一种名为 GNoME 的 材料发现框架 。该框架利用机器学习和高通量计算方法,通过预测材料的稳定性和性质,加速新材料的发现。文章介绍了GNoME的 工作原理和方

    2024年02月02日
    浏览(61)
  • 【论文笔记】《Learning Deconvolution Network for Semantic Segmentation》

    重要说明: 严格来说,论文所指的反卷积并不是真正的 deconvolution network 。 关于 deconvolution network 的详细介绍,请参考另一篇博客:什么是Deconvolutional Network? Learning Deconvolution Network for Semantic Segmentation deconvolution network 是卷积网络( convolution network ) 的镜像,由反卷积层( dec

    2024年02月20日
    浏览(42)
  • 【论文阅读】Deep learning for unmanned aerial vehicles detection: A review.

    Al-lQubaydhi, N., Alenezi, A., Alanazi, T., Senyor, A., Alanezi, N., Alotaibi, B., Alotaibi, M., Razaque, A., Hariri, S. (2024). Deep learning for unmanned aerial vehicles detection: A review. Computer Science Review, 51(100614), 100614. https://doi.org/10.1016/j.cosrev.2023.100614 深度学习用于无人机检测:综述。 摘要: 无人机作为一种新

    2024年01月16日
    浏览(44)
  • PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

    论文下载地址:https://arxiv.org/abs/1612.00593 代码开源地址:https://github.com/charlesq34/pointnet 作者以及论文信息如下: 论文作者的公开课链接 :https://www.shenlanxueyuan.com/channel/8hQkB6hqr2/detail(大佬的课必须去感受下啊~~) 最近,开始研究基于3D点云的深度学习算法。 PointNet 作为基于

    2023年04月15日
    浏览(36)
  • 【论文阅读】A Deep Behavior Path Matching Network for Click-ThroughRate Prediction

    用于点击率预测的深度行为路径匹配网络 用户在电子商务应用程序上的行为不仅包含对商品的各种反馈,有时还隐含着用户决策的认知线索。为了解用户决策背后的心理过程,我们提出了行为路径,并建议将用户当前行为路径与历史行为路径相匹配,以预测用户在应用程序上

    2024年03月28日
    浏览(50)
  • 论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

    H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071. 计算核内cube、vector、scaler部件的指令同步 昇腾910包

    2024年03月11日
    浏览(86)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包