论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection

这篇具有很好参考价值的文章主要介绍了论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

说在前面:本人是个菜鸡,纯菜鸡,以下我的理解绝对会有错误,欢迎指正共同进步!
文章题目:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection
论文链接:论文
代码链接:代码

一、方法

贡献点
1.提出了一种新颖的方法,自适应禁用视觉模态,实现高效的基于深度学习的VIO。
2.提出一种新颖的策略网络,与姿态估计网络联合训练,学习视觉模态选择策略,以启用或禁用视觉特征。
3.显著减少计算量
总体框架:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
网络结构为:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
都很好理解。

1.视觉模态选择策略

通常的端到端VIO直接将图像和IMU信息编码后串联,输入到RNN中进行处理,本文提出一个选择策略,通过当前的IMU信息和上一次的隐藏状态来判断是否使用视觉信息,先通过一个轻量级策略网络输出一个概率:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
(这里的x的符号应该写错了,应该上面i下面t)
其中pt∈R2表示伯努利分布的概率,然后使用Gumbel-Softmax运算对二元决策dt进行采样:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中dt∈{0,1},然后判断是否使用视觉信息:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中⊕表示串联操作。
当dt = 1时,使用视觉特征,视觉特征和惯性特征串联,送入到LSTM中。
当dt = 0时,禁用视觉特征,使用补零操作替换视觉特征,保持输入到LSTM中的唯独相同。

2.Gumbel-Softmax训练

遵循伯努利分布的采样dt本质上是离散的,这使得网络不可微。因此,通过反向传播训练策略网络并非易事,
Gumbel-Softmax本质上是分类分布的重新参数化技巧。
当k = 1, …, K 时,第k个类别的概率为pk,在文中进行二元分类,所以K=2,根据Gumbel-Max技巧,遵循目标分布的离散样本^P:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中gk=-log(-logUk)是一个标准的Gumbel分布,随机变量Uk是从均匀分布U(0,1)中抽样得到的。
公式理解:最小化伯努利概率和标准Gumbel分布的和,来求得类别K,在网络中用于前向传播,判断是否启用视觉特征。
随后,应用softmax函数,通过可微函数获得实值向量
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中τ是控制 ̃P的“离散性”的参数。这个公式结果近似梯度,用于反向传播,以训练策略网络。

3.损失函数

位姿均方误差(MSE):
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中T是训练的序列长度,vt和φt表示真实平移和旋转向量,α=100平衡旋转和平移的权重。
此外,对每个视觉编码器的使用应用额外的惩罚因子λ,以鼓励禁用视觉特征,计算平均惩罚并将其表示为效率损失:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
最终的损失为:
论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉文章来源地址https://www.toymoban.com/news/detail-805213.html

到了这里,关于论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

    相关链接:arxiv github : Vision-RWKV 、 Visual Perception 、 Linear Attention 、 RWKV 、 Transformer Transformers 在计算机视觉和自然语言处理领域引起了革命,但它们的高计算复杂度限制了它们在高分辨率图像处理和长上下文分析中的应用。本文介绍了 Vision-RWKV (VRWKV),这是一个从NL

    2024年03月16日
    浏览(32)
  • 论文笔记--LLaMA: Open and Efficient Foundation Language Models

    标题:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint   文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。 English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的Com

    2024年02月09日
    浏览(43)
  • 1 论文笔记:Efficient Trajectory Similarity Computation with ContrastiveLearning

    轨迹相似度计算是轨迹分析任务(相似子轨迹搜索、轨迹预测和轨迹聚类)最基础的组件之一 现有的关于轨迹相似度计算的研究主要可以分为两大类: 传统方法 DTW、EDR、EDwP等 二次计算复杂度O(n^2) 缺乏稳健性 会受到非均匀采样、噪点的影响 基于学习的方法 旨在减少计算复

    2024年02月07日
    浏览(30)
  • ImageNet Classification with Deep Convolutional 论文笔记

    ✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 ImageNet Classification with Deep Convolutional Neural N

    2024年01月18日
    浏览(31)
  • 论文阅读:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

    目录 摘要 引言 相关工作 Visual ChatGPT Prompt Managing of Sysytem Principles M(P) Prompt Managing of Foundation Models M(F) Prompt Managing of User Querie M(Qi) Prompt Managing of Foundation Model Out-puts M(F(A(j)i )) 实验 实验设置  Visual ChatGPT的作用: 1、不仅可以发送和接收语言,也可以发送和接收图像; 2、提供

    2024年02月09日
    浏览(54)
  • LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

    LLaMA是meta在2023年2月开源的大模型,在这之后,很多开源模型都是基于LLaMA的,比如斯坦福大学的羊驼模型。 LLaMA的重点是比通常情况下使用更多的语料,来训练一系列可在各种推理预算下实现可能的最佳性能的语言模型。 摘要翻译:我们在此介绍LLaMA,这是一个参数范围从

    2024年02月15日
    浏览(31)
  • Direct LiDAR-Inertial Odometry

    运行效果: video id=“video” controls=\\\"\\\"src=“data/dlio_ss.mp4” height=“500” preload=“none” 摘要 难点: 快速运动 or 穿越不规则地形时降低精度,通常过于简单的方法而过高的计算量。 本方案提出: Direct LiDAR-Inertial Odometry :一种轻量级激光雷达惯性里程计算法,采用新的从粗到精

    2024年02月09日
    浏览(58)
  • 【论文阅读】Dynamic Split Computing for Efficient Deep Edge Intelligence

    作者:Arian Bakhtiarnia, Nemanja Milošević, Qi Zhang, Dragana Bajović, Alexandros Iosifidis 发表会议: ICML 2022 DyNN Workshop ICASSP 2023 发表单位: ∗DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. †Faculty of Sciences, University of Novi Sad, Serbia. ‡Faculty of Technical Sciences, University of N

    2024年02月11日
    浏览(52)
  • SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 论文阅读

    题目 :SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 作者 :Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE 时间 :2022 来源 : IEEE ROBOTICS AND AUTOMATION LETTERS(RAL) 语义的缺乏和动态对象导致的性能下降阻碍了其在现实场景中的应用。 为了克服这些限制,我们在Simultanero

    2024年02月09日
    浏览(27)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包