前言
说在前面:本人是个菜鸡,纯菜鸡,以下我的理解绝对会有错误,欢迎指正共同进步!
文章题目:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection
论文链接:论文
代码链接:代码
一、方法
贡献点
1.提出了一种新颖的方法,自适应禁用视觉模态,实现高效的基于深度学习的VIO。
2.提出一种新颖的策略网络,与姿态估计网络联合训练,学习视觉模态选择策略,以启用或禁用视觉特征。
3.显著减少计算量
总体框架:
网络结构为:
都很好理解。
1.视觉模态选择策略
通常的端到端VIO直接将图像和IMU信息编码后串联,输入到RNN中进行处理,本文提出一个选择策略,通过当前的IMU信息和上一次的隐藏状态来判断是否使用视觉信息,先通过一个轻量级策略网络输出一个概率:
(这里的x的符号应该写错了,应该上面i下面t)
其中pt∈R2表示伯努利分布的概率,然后使用Gumbel-Softmax运算对二元决策dt进行采样:
其中dt∈{0,1},然后判断是否使用视觉信息:
其中⊕表示串联操作。
当dt = 1时,使用视觉特征,视觉特征和惯性特征串联,送入到LSTM中。
当dt = 0时,禁用视觉特征,使用补零操作替换视觉特征,保持输入到LSTM中的唯独相同。
2.Gumbel-Softmax训练
遵循伯努利分布的采样dt本质上是离散的,这使得网络不可微。因此,通过反向传播训练策略网络并非易事,
Gumbel-Softmax本质上是分类分布的重新参数化技巧。
当k = 1, …, K 时,第k个类别的概率为pk,在文中进行二元分类,所以K=2,根据Gumbel-Max技巧,遵循目标分布的离散样本^P:
其中gk=-log(-logUk)是一个标准的Gumbel分布,随机变量Uk是从均匀分布U(0,1)中抽样得到的。
公式理解:最小化伯努利概率和标准Gumbel分布的和,来求得类别K,在网络中用于前向传播,判断是否启用视觉特征。
随后,应用softmax函数,通过可微函数获得实值向量
其中τ是控制 ̃P的“离散性”的参数。这个公式结果近似梯度,用于反向传播,以训练策略网络。文章来源:https://www.toymoban.com/news/detail-805213.html
3.损失函数
位姿均方误差(MSE):
其中T是训练的序列长度,vt和φt表示真实平移和旋转向量,α=100平衡旋转和平移的权重。
此外,对每个视觉编码器的使用应用额外的惩罚因子λ,以鼓励禁用视觉特征,计算平均惩罚并将其表示为效率损失:
最终的损失为:
文章来源地址https://www.toymoban.com/news/detail-805213.html
到了这里,关于论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!