【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

这篇具有很好参考价值的文章主要介绍了【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Github: https://github.com/LiheYoung/Depth-Anything
2024年 TikTok 实习生的工作

主要内容

这篇论文提出了一个使用的方案,用于鲁棒的单目深度估计,Depth Anything
论文的模型结构没有创新(Transformer),主要贡献在于

  1. 探索了简单有效的数据扩展方式(如何有效利用大量的无标签数据
  2. 从预训练模型继承语义(使用冻结的 DINOv2 进行特征约束

论文的方法在各中深度估计数据集上都取得了SOTA

故事逻辑

  1. 通过在大量数据上预训练得到的基础模型,在各种下游任务上,表现出了强大的zero-/few- shot 能力。这一定程度上依赖于大规模的训练数据(当然也包括强大的并行计算能力以及庞大的模型,对于深度估计这一领域来说,强调了大规模的训练数据的重要性)。
  2. 单目深度估计领域同样需要一个这样的基础模型,但是受限于深度估计数据集有限且难以获得

传统的深度估计数据集,通过 sensors, stereo matching, SfM 等方式获得,花费大,耗时且难以处理

  1. 论文关注大规模的无标签数据

    1. 数据简单廉价,容易获取
    2. 多样性,图像场景更丰富
    3. 容易标注(使用预训练的单目深度估计模型标注伪标签
  2. 类似于SAM的自动标注过程(SAM 有人工微调的过程,DAM没有)

    1. 收集了深度估计公开数据集以及大量无标签数据
    2. 使用带标签数据训练模型
    3. 使用训练好的模型对无标签数据标注伪标签,然后将伪标注图像加入到训练集(self-training)
    4. 实验表明,简单的合并带标签数据和伪标签数据的方式不能能够改进模型的性能(这一点是比较关键的,也是论文需要解决的问题之一)
    5. 使用语义分割的辅助监督(过去方法采用的)能够带来深度估计的性能提升
    6. 然而本文实验表明,使用语义分割辅助监督并没有带来精度的提升(应该是模型性能优化到一定程度之后,语义分割辅助不再带来性能提升)。作者分析了原因:可能是因为语义分割监督只关注类别相关的特征,或者监督使得特征映射到了离散的类别空间上,损失了深度估计关注的其他信息。(这是论文需要解决的第二个问题)

解决方案

【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习

问题一:如何更好的利用伪标签数据

  1. 模型从伪标签数据中获得的额外信息是有限,因为在无标签数据上老师和学生模型都进行相似的正确或错误预测(原因分析
  2. 使用更加困难的优化目标,以迫使模型从无标签数据中获取额外的知识。主要的逻辑是对无标签数据添加强扰动,包括颜色扰动(包括颜色扰动和高斯模糊)以及空间扰动(CutMix)(解决方案
  3. 这样简单的改动使得自训练带来了较大的提升(效果

问题二:语义分割辅助监督

  1. 尝试使用分割预测辅助监督(共享编码器,不同的解码器)但是没有性能的提升(前面分析了原因,语义分割只关注分割的语义类别,得到的是离散的类别特征表示)
  2. 使用语义信息更丰富的信号进行辅助监督,辅助的特征对齐损失(DINOv2的高层次特征,空间高维且连续,与离散的类别相比,具有更丰富的语义)
  3. 具体的使用冻结的DINOv2的顶层特征监督模型的顶层特征(不使用线性层映射!直接监督主干提取的高层次特征)

使用 RAM,GroundingDINO,HQ-SAM 组合一起得到无标签图像的语义分割伪标签
没有使用映射层,由于随机的初始化的映射器在早期会有较大的损失,进而导致在训练初期占主导了模型的训练
DINO通常产生相似的特征表示在同一个物体上,而深度的在空间上是变化的,过于强制深度特征和DINO特征相同是无益的,因此相似性监督会有容忍度 tolerance margin α \alpha α(相似度超过,不计入损失)

【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习
使用逐像素的余弦相似度损失,f表示深度模型提取的特征,f‘表示冻结的DINOv2编码器提取的特征

实验结果

下面挑选了部分实验结果展示

消融实验结果

以下是对使用带标签数据、伪标签数据、图像干扰、语义约束进行的消融实验
【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习
以下是对超参数和语义约束的实验
【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习

横向对比实验

【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习
【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习
【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,论文阅读,论文阅读,人工智能,计算机视觉,深度学习文章来源地址https://www.toymoban.com/news/detail-855409.html

到了这里,关于【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(39)
  • 【论文精读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    一篇大规模语言模型的指南,指南介绍详细且会随着大模型的发展不断更新,相信初入大模型的朋友一定能有所收获。 本文为LLM的从业者或者其下游任务用户提供了一个全面而实用的指南。首先对现有的LLM进行介绍和总结,其次讨论了预训练数据、训练数据和测试数据的影响

    2024年02月05日
    浏览(39)
  • On the Spectral Bias of Neural Networks论文阅读

    众所周知,过度参数化的深度神经网络(DNNs)是一种表达能力极强的函数,它甚至可以以100%的训练精度记忆随机数据。这就提出了一个问题,为什么他们不能轻易地对真实数据进行拟合呢。为了回答这个问题,研究人员使用傅里叶分析来研究深层网络。他们证明了具有有限权值

    2024年02月22日
    浏览(36)
  • 【论文阅读笔记】Endoscopic navigation in the absence of CT imaging

      上一篇的导航导论,是需要先验,也就是需要事先拍摄堆叠的图片(比如CT图等),在体外构建相应的3D模型,再与内窥镜图像进行实时匹配。对于很多情况来说,是无法拥有如此充足的先验的。所以,本文探索的是没有额外CT图像的一个内窥镜导航算法,应用场景是鼻腔

    2024年02月11日
    浏览(36)
  • 论文阅读笔记A Systematic Review of the State of Cyber-Security in Water Systems

    该论文主要回顾了水系统的网络安全研究,研究重点是提高供水、废水收集和处理系统的安全性 一、 Introduction 过去的供水系统安全:通过隔离、限制对控制组件的访问来实现的。 基于IoT的供水系统:依靠连接多层网络物理系统来促进自主去中心化决策,并改善实时数据和预

    2024年02月04日
    浏览(44)
  • 论文阅读 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    论文链接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目录 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper  2. T

    2024年02月14日
    浏览(38)
  • 【论文阅读】The Design of a Practical System for Fault-Tolerant Virtual Machines

    为了更有效的做论文阅读笔记,之后都打算将每篇论文笔记的内容控制在较少的字数范围内,毕竟原论文摆在那里,将其翻译照抄过来也没什么意思,将论文读薄才是最重要的。( •̀ ω •́ )✧ \\\"The Design of a Practical System for Fault-Tolerant Virtual Machines\\\"是MIT6.824推荐阅读的论文之一

    2024年02月03日
    浏览(40)
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

            本文推出了 EVA ,这是一个 以视觉为中心 的基础模型,旨在仅使用可公开访问的数据来 探索大规模 视觉表示的 局限性 。EVA 是一种经过预训练的普通 ViT,用于 重建 以可见图像块为条件的 屏蔽掉的 图像-文本对齐(image-text aligned)的视觉特征 。通过这个前置任

    2024年02月06日
    浏览(43)
  • 论文阅读|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

    ICLR 2017 神经网络吸收信息的能力受到其参数数量的限制。条件计算,即网络的某些部分在每个示例的基础上处于活动状态,在理论上已被提出作为一种在不按比例增加计算量的情况下大幅增加模型容量的方法。然而,在实践中,存在重大的算法和性能挑战。在这项工作中,我

    2024年02月02日
    浏览(27)
  • 论文阅读:AdaBins: Depth Estimation using Adaptive Bins

    信息的全局处理会帮助提高整体深度估计。 提出的AdaBins预测的bin中心集中在较小的深度值附近,对于深度值范围更广的图像,分布广泛。 Fu et al. 发现将深度回归任务转化为分类任务可以提升效果,将深度范围分成固定数量的bins。本文则解决了原始方法的多个限制: 计算根

    2024年04月17日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包