论文阅读:AdaBins: Depth Estimation using Adaptive Bins

这篇具有很好参考价值的文章主要介绍了论文阅读:AdaBins: Depth Estimation using Adaptive Bins。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Motivation

  • 信息的全局处理会帮助提高整体深度估计。
  • 提出的AdaBins预测的bin中心集中在较小的深度值附近,对于深度值范围更广的图像,分布广泛。
  • Fu et al. 发现将深度回归任务转化为分类任务可以提升效果,将深度范围分成固定数量的bins。本文则解决了原始方法的多个限制:
    1. 计算根据输入场景的特征动态变化的自适应箱。
    2. 分类方法导致深度值的离散化,导致视觉质量差,深度不连续明显,论文提出预测最终的深度值作为bin中心的线性组合。
    3. 以高分辨率全局计算信息,而不是主要是在低分辨率的瓶颈部分。

adabins全局场景理解,论文阅读文章来源地址https://www.toymoban.com/news/detail-854281.html

AdaBins design

  • 首先,我们采用一个适应性分箱策略把具体的深度区间 D = ( d m i n , d m a x ) D=(d_{min},d_{max}) D=(dmin,dmax)分成N bins。
  • 我们将最终深度预测为 bin 中心的线性组合,使模型能够估计平滑变化的深度值。
  • 当在空间更高分辨率的张量上使用注意力时,可以获得更好的结果。因此采用了这样的结构: Encoder, Decoder, and finally attention。
  • 由于内存限制,使用h=H/2,w=W/2的空间分辨率处理,最终的depth图像通过简单的bilinearly上采样到(H,W)。
  • AdaBins的第一个模块是miniViT.输出:1) 向量 b , 定义了它如何将深度区间D划分为输入图像。2)Range-Attention 图 R \mathcal{R} R,形状是 h × w × C h \times w \times C h×w×C, 包含了像素级深度计算信息。
  • Bin-widths: 使用MLP头和ReLU层输出N维(bin的数量)向量b’。最后通过Softmax归一化b‘
    b i = b i ′ + ϵ ∑ j = 1 N ( b j ′ + ϵ ) b_i = \frac{b'_i + \epsilon}{\sum^N_{j=1}(b'_j + \epsilon)} bi=j=1N(bj+ϵ)bi+ϵ
  • Range attention maps: Transformer中包含了更多的全局信息。来自转换器的output embedding (2,C+1)作用一组1x1的卷积核,并与解码器的特征卷积获得 R \mathcal{R} R。这相当于将pixel-wise 特征视为’keys’, transformer output embedding相当于’queries’。
  • Hybrid regression:
    R \mathcal{R} R 通过 1 × 1 卷积层获得 N 个通道,然后通过 Softmax。每个像素每个通道的数值作为这个bin的概率,每个depth-bin-centers可以算为:
    c ( b i ) = d ( m i n ) + ( d m a x − d m i n ) ( b i / 2 + ∑ j = 1 i + 1 b j ) c(b_i) = d_(min) + (d_{max} - d_{min})(b_i/2 + \sum^{i+1}_{j=1}b_j) c(bi)=d(min)+(dmaxdmin)(bi/2+j=1i+1bj)
    最后,对于每一个pixel, 最终的 d ~ \tilde{d} d~计算为线性组合 c ( b i ) c(b_i) c(bi),
    d ~ = ∑ k = 1 N c ( b k ) p k \tilde{d}= \sum^N_{k=1}c(b_k)p_k d~=k=1Nc(bk)pk

Loss function

  • Pixel-wise depth loss. 使用一个尺度不变损失 (SI) 的缩放版本:
    adabins全局场景理解,论文阅读
  • g i = l o g d ~ i − l o g d i g_i = log \tilde{d}_i - log d_i gi=logd~ilogdi
  • Bin-center density loss: 鼓励bin centers的分布与真实标签相同。我们将 bin 中心的集合表示为 c(b),将地面实况图像中所有深度值的集合表示为 X,并使用双向倒角损失 [9] 作为正则化器:
    adabins全局场景理解,论文阅读

Reference

  1. [1]FU H, GONG M, WANG C, et al. Deep Ordinal Regression Network for Monocular Depth Estimation[C/OL]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT. 2018. http://dx.doi.org/10.1109/cvpr.2018.00214. DOI:10.1109/cvpr.2018.00214.

到了这里,关于论文阅读:AdaBins: Depth Estimation using Adaptive Bins的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Cho_Learning_Adaptive_Dense_Event_Stereo_From_the_Image_Domain_CVPR_2023_paper.html   事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督领域自适应作为该问题的一种解决方法,传统的

    2024年02月04日
    浏览(23)
  • Transformer & 立体视觉 & Depth Estimation

    1. Intro 立体深度估计具有重要的意义,因为它能够重建三维信息。为此,在左右相机图像之间匹配相应的像素;对应像素位置的差异,即视差,可以用来推断深度并重建3D场景。最近基于深度学习的立体深度估计方法已经显示出有希望的结果,但仍然存在一些挑战。 其中一个挑

    2024年02月14日
    浏览(24)
  • 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

    本文提出了一种非局部的空间传播网络用于深度图补全,简称为NLSPN。 (1)为什么需要深度图补全? 在AR、无人机控制、自动驾驶和运动规划等应用当中,需要知道物体的稠密深度信息。现有的大部分深度传感器,如雷达、RGB-D相机等,可以提供RGB图片和准确的稀疏深度图,

    2024年02月19日
    浏览(29)
  • 机器学习之Adam(Adaptive Moment Estimation)自适应学习率

    Adam(Adaptive Moment Estimation)是一种常用的优化算法,特别适用于训练神经网络和深度学习模型。它是一种自适应学习率的优化算法,可以根据不同参数的梯度信息来动态调整学习率,以提高训练的效率和稳定性。 Adam算法的自适应性体现在以下两个方面: 动量(Momentum) :

    2024年02月11日
    浏览(25)
  • [论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

    最近正在痛苦改论文中…还没投出去, 心情糟糕 所以不如再做一点笔记… 论文题目: Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images 论文地址: 论文 代码地址: 代码 这是一篇CVPR2023的文章, 是无人机数据集的小目标检测. 文章针对小尺寸目

    2024年02月04日
    浏览(33)
  • 论文阅读:Dense Depth Priors for Neural Radiance Fields from Sparse Input Views

    CVPR2022 首先我们由一组室内的RGB图像 { I i } i = 0 N − 1 , I i ∈ [ 0 , 1 ] H × W × 3 {I_i}^{N-1}_{i=0}, I_i in [0,1]^{H times W times 3} { I i ​ } i = 0 N − 1 ​ , I i ​ ∈ [ 0 , 1 ] H × W × 3 。 通过SFM的方法,我们可以获得相机位姿 p i ∈ R 6 p_i in mathbb{R}^6 p i ​ ∈ R 6 , 内参矩阵 K i ∈ R 3 ×

    2024年02月09日
    浏览(32)
  • 【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

    Github: https://github.com/LiheYoung/Depth-Anything 2024年 TikTok 实习生的工作 这篇论文提出了一个使用的方案,用于鲁棒的单目深度估计,Depth Anything 论文的模型结构没有创新(Transformer),主要贡献在于 探索了简单有效的数据扩展方式(如何有效利用大量的无标签数据 从预训练模型继

    2024年04月22日
    浏览(27)
  • 论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》

    论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_Spherical_Space_Feature_Decomposition_for_Guided_Depth_Map_Super-Resolution_ICCV_2023_paper.pdf 源码地址: https://github.com/Zhaozixiang1228/GDSR-SSDNet   GDSR是一种多模态图像处理的热门话题,它的目的是利用同一场景中的高分辨率(HR)RGB图像中

    2024年01月16日
    浏览(26)
  • GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 论文阅读

    题目 :GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 作者 :Zhichao Yin and Jianping Shi 来源 :CVPR 时间 :2018 我们提出了 GeoNet,这是一种联合无监督学习框架,用于视频中的单目深度、光流和自我运动估计。 这三个组件通过 3D 场景几何的性质耦合在一起,由我们的框

    2024年02月09日
    浏览(30)
  • 论文阅读和分析:Binary CorNET Accelerator for HR Estimation From Wrist-PPG

    主要贡献: 一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后,减少计算量,又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.67±5.49 bpm。该设计采用ST65 nm技术框架,实现3 GOPS @ 1 MHz,每个窗口消耗56.1 μ J mu J

    2024年02月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包