论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection

这篇具有很好参考价值的文章主要介绍了论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

说在前面：本人是个菜鸡，纯菜鸡，以下我的理解绝对会有错误，欢迎指正共同进步！
文章题目：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection
论文链接：论文
代码链接：代码

一、方法

贡献点
1.提出了一种新颖的方法，自适应禁用视觉模态，实现高效的基于深度学习的VIO。
2.提出一种新颖的策略网络，与姿态估计网络联合训练，学习视觉模态选择策略，以启用或禁用视觉特征。
3.显著减少计算量
总体框架：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
网络结构为：

都很好理解。

1.视觉模态选择策略

通常的端到端VIO直接将图像和IMU信息编码后串联，输入到RNN中进行处理，本文提出一个选择策略，通过当前的IMU信息和上一次的隐藏状态来判断是否使用视觉信息，先通过一个轻量级策略网络输出一个概率：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
（这里的x的符号应该写错了，应该上面i下面t）
其中pt∈R2表示伯努利分布的概率，然后使用Gumbel-Softmax运算对二元决策dt进行采样：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中dt∈{0,1}，然后判断是否使用视觉信息：

其中⊕表示串联操作。
当dt = 1时，使用视觉特征，视觉特征和惯性特征串联，送入到LSTM中。
当dt = 0时，禁用视觉特征，使用补零操作替换视觉特征，保持输入到LSTM中的唯独相同。

2.Gumbel-Softmax训练

遵循伯努利分布的采样dt本质上是离散的，这使得网络不可微。因此，通过反向传播训练策略网络并非易事，
Gumbel-Softmax本质上是分类分布的重新参数化技巧。
当k = 1, …, K 时，第k个类别的概率为pk，在文中进行二元分类，所以K=2，根据Gumbel-Max技巧，遵循目标分布的离散样本^P：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中gk=-log(-logUk)是一个标准的Gumbel分布，随机变量Uk是从均匀分布U(0,1)中抽样得到的。
公式理解：最小化伯努利概率和标准Gumbel分布的和，来求得类别K，在网络中用于前向传播，判断是否启用视觉特征。
随后，应用softmax函数，通过可微函数获得实值向量
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中τ是控制 ̃P的“离散性”的参数。这个公式结果近似梯度，用于反向传播，以训练策略网络。

3.损失函数

位姿均方误差（MSE）：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
其中T是训练的序列长度，vt和φt表示真实平移和旋转向量，α=100平衡旋转和平移的权重。
此外，对每个视觉编码器的使用应用额外的惩罚因子λ，以鼓励禁用视觉特征，计算平均惩罚并将其表示为效率损失：
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection,论文阅读,深度学习,计算机视觉
最终的损失为：
文章来源地址https://www.toymoban.com/news/detail-805213.html

到了这里，关于论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！