SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读

这篇具有很好参考价值的文章主要介绍了SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文信息

题目:SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments
作者:Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE
时间:2022
来源: IEEE ROBOTICS AND AUTOMATION LETTERS(RAL)

Abstract

语义的缺乏和动态对象导致的性能下降阻碍了其在现实场景中的应用。

为了克服这些限制,我们在Simultanerous VO、Object Detection和Instance segmentation (SimVODIS) 网络之上设计了一种新颖的神经语义视觉里程计 (VO) 架构。

接下来,我们提出了一种具有多任务学习形式的专用姿态估计架构,用于处理动态对象和 VO 性能增强。

此外,SimVODIS++ 专注于显着区域,同时排除无特征区域。

我们工作中进行的大量实验证明,所提出的 SimVODIS++ 提高了动态环境中的 VO 性能。此外,SimVODIS++ 专注于显着区域,同时排除无特征区域。通过进行实验,我们发现并解决了传统实验设置中的数据泄漏问题,随后进行了许多先前的工作,这也是我们的贡献之一。

Introduction

目前的自监督单目深度和运动学习方法存在三个局限性:缺乏语义信息,动态环境下视觉里程计(VO)性能下降,以及测量VO性能的错误实验设置。

  1. 首先,采用VO算法的智能系统通常需要语义信息来执行高级任务,如机器人提供的家庭服务[1]。这种系统在VO线程之外运行另一个计算线程来提取语义信息,这增加了系统的复杂性和计算时间[10]。
  2. 其次,由于自我监督损失的静态场景假设,目前的方法很难在动态环境中学习深度和运动[11]。光度一致性损失是自监督损失的核心,需要一种合适的机制与动态对象进行学习[12]。
  3. 此外,目前的一组方法是在训练数据分割的部分评估VO性能,而不是在不涉及训练过程的数据上,即数据泄漏问题。这种错误的实验设置已经成为一种惯例,许多先前的研究都遵循了这种惯例。

为了克服上述限制,我们提出了SimVODIS++,SimVODIS++从一组输入图像帧中估计以下信息:
1)图像帧之间的相对姿态,
2)密集深度图预测,
3)对象类,
4)对象边界框
5)实例分割掩码。

SimVODIS++的网络架构允许提取智能系统的五个基本信息,计算量比Mask RCNN[13]略有增加。因此,智能系统可以通过SimVODIS++从共享特征中提取几何和语义信息来提高计算效率。

此外,我们还致力于提高动态环境中自监督单目深度和运动学习的VO性能。为了实现这一目标,我们提出了一种专注的姿态估计架构,用于处理保持网络大小的移动对象。
我们使用了一个自注意模块,使SimVODIS++学会以自监督的方式排除动态对象并选择显著区域。SimVODIS++还学习在该过程中排除无特征区域。

此外,我们提出了一种学习相机校准和姿态估计的训练方法,作为多任务学习,以提高VO性能。简单地学习相机校准并不能提高VO性能,但我们的学习公式具有理论背景。

Approach

Network Architecture

SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能
我们基于以下推理设计了SimVODIS++网络:
(1)用于语义分支(对象检测和实例分割)的特征金字塔网络(FPN)提取能够执行语义和几何任务的一般特征;
(2)我们可以利用这些丰富的特征来执行位姿估计和深度图预测。对于SimVODIS++,与SimVODIS[10]相比,我们设计了两个新功能:姿态估计和相机校准。我们进行专注的姿态估计以去除动态对象,并进行相机校准以提高VO性能。由于所提出的姿态估计和相机校准导致的参数总量的增加是最小的。

Attentive Pose Estimation

SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能
图2描述了在动态环境中用于鲁棒性能的所提出的注意姿态估计的架构。

Conv. Block 从FPN接收特征,调整输入特征以进行自注意,并通过自注意进行动态特征选择。对于自我注意,我们使用CBAM模块[37]。在训练过程中,CBAM模块让姿势分支学会专注于具有相关特征的区域,并尽量减少对动态对象的关注。

SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能
此外,动态选择的特征要经过一系列Conv.层。除了Conv.块中的一个之外,Conv.层具有3×3个内核。Conv.块中Conv.层的核大小是3×3或7×7;我们在消融研究中研究了核大小的影响。之后,平均层紧随其后,并在空间上对输入特征进行平均。最后,我们缩放平均姿势以生成输出姿势值。

Camera Calibration

我们将相机参数的学习和姿态估计作为多任务学习,以提高姿态估计的性能。在这个过程中,我们做出了两个适用于大多数现代相机的假设:
(1)焦距在垂直和水平方向上是相同的;
(2)主点在中心。接下来,我们选择相机参数的监督学习,因为光度一致性损失容忍相机参数的无监督学习,如下[11]:
SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能
此外,我们用垂直视场(Fv)而不是焦距(f)来参数化相机参数的学习。垂直视场可以从单个图像中直接观察到,而焦距则不然[38]。这个特性使得学习垂直视场的过程是稳定的。

我们从垂直视场中恢复焦距如下: f = h 2 × t a n F v 2 f=\frac{h}{2×tan {\frac{F_v}{2}}} f2×tan2Fvh。然后,具有两个假设的相机矩阵变为
SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能

Loss Function

SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能

Evaluation

SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能
SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读,论文,人工智能文章来源地址https://www.toymoban.com/news/detail-703871.html

到了这里,关于SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection

    说在前面:本人是个菜鸡,纯菜鸡,以下我的理解绝对会有错误,欢迎指正共同进步! 文章题目:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection 论文链接:论文 代码链接:代码 贡献点 1.提出了一种新颖的方法,自适应禁用视觉模态,实现高效的基于深度学

    2024年01月19日
    浏览(42)
  • 论文笔记: NSG: Neural Scene Graphs for Dynamic Scenes

    对动态场景进行渲染,完成动态前景与背景分离、背景inpainting、动态前景编辑和新视角生成。 之前的方法如nerf只能够渲染静态场景(利用的是静态场景在多视角下的一致性),如将整张图像场景中的所有物体编码进单个神经网络中,缺乏表征动态物体和将这些物体分解为单

    2024年01月16日
    浏览(40)
  • Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 论文阅读

    论文链接 Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction 0. Abstract 尽管基于学习的方法在单视图深度估计和视觉里程计方面显示出有希望的结果,但大多数现有方法以监督方式处理任务。最近的单视图深度估计方法探索了通过最小化光度误差在

    2024年03月10日
    浏览(61)
  • 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing

    A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of California, San Diego 作者:Canwen Xu, Julian McAuley 发表会议: EACL 2023 论文地址:http://arxiv.org/abs/2202.07101 发布时间:2022.2.15(v1) 2023.2.24 (v2) 掌握主要内容 有效缩小大型Transformer模型是自然语言处理最新进展的主

    2024年02月03日
    浏览(44)
  • 论文阅读:UVIO: An UWB-Aided Visual-Inertial Odometry Framework with Bias-Compensated Anchors Initial

    今天再次仔细读了UVIO: An UWB-Aided Visual-Inertial Odometry Framework with Bias-Compensated Anchors Initialization这篇论文,这是23年8月份的论文,researchgate里说发表在2023IROS上,主要工作是修改openvins代码利用超宽带技术和视觉惯性里程计提供鲁棒低漂移定位,提出了一种多步初始化程序。 卫星

    2024年02月04日
    浏览(49)
  • Elasticsearch:语义搜索 - Semantic Search in python

    当 OpenAI 于 2022 年 11 月发布 ChatGPT 时,引发了人们对人工智能和机器学习的新一波兴趣。 尽管必要的技术创新已经出现了近十年,而且基本原理的历史甚至更早,但这种巨大的转变引发了各种发展的“寒武纪大爆炸”,特别是在大型语言模型和生成 transfors 领域。 一些怀疑论

    2024年02月14日
    浏览(53)
  • 【Flutter】exception in phase ‘semantic analysis‘ in source unit ‘_BuildScript_‘ Unsupported class

    Gradle版本与Java版本不兼容问题,.gradlecache6.5说明当前项目的Gradle 版本是6.5,Gradle 6.5对应版本Java8(即常说的JDK1.8)~Java14。 Gradle官方的兼容性文档 在android项目里修改Gardle版本即可,操作如下: Fileopen当前项目下的android项目Project StructureSDK LocationGradle SettingsGradle JDK 修改成需

    2024年02月03日
    浏览(36)
  • 论文笔记--Distilling the Knowledge in a Neural Network

    标题:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv   文章提出了一种将大模型压缩的新的思路:蒸馏distillation。通过蒸馏,可以将很大的模型压缩为轻量级的模型,从而提升推理阶段的速率。   随着模型的参数量越来越

    2024年02月15日
    浏览(46)
  • Building A Neural Network From Scratch in Python

    作者:禅与计算机程序设计艺术 人工神经网络(Artificial Neural Networks, ANN)是一种模仿人脑神经元网络的计算模型。它由输入层、输出层、隐藏层组成,其中每层包括多个神经元节点。ANN可以学习和识别复杂的数据模式。本文将使用Python语言,基于全连接网络结构,构建一个

    2024年02月07日
    浏览(33)
  • Distilling the Knowledge in a Neural Network学习笔记

    1.主要内容是什么: 这篇论文介绍了一种有效的知识迁移方法——蒸馏,可以将大型模型中的知识转移到小型模型中,从而提高小型模型的性能。这种方法在实际应用中具有广泛的潜力,并且可以应用于各种不同的任务和领域。 论文中首先介绍了蒸馏的基本原理。大型模型通

    2024年02月07日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包