【论文】LearningDepth from Single Monocular Images

这篇具有很好参考价值的文章主要介绍了【论文】LearningDepth from Single Monocular Images。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2005 NIPS


文章使用了Markov 随机场(Markov Random Fields, MRF) 从单图像上直接估计出图像的深度信息。
与RGBD输入数据不同的是,文章中采用了YCbCr数据+depth数据。
使用MRF是为了在一张图上融合局部和整体的信息。

特征提取

卷积核的使用

作者为了提取出文本信息,使用了15种卷积和应用在YCbCr的Y通道(intensity channel)上,并用第一个Laws’s mask 卷积核(计算平均)在两个颜色通道上,所以一共是17个特征向量。同时采用absolute energy和sum squared energy进行计算,所以一共是34个特征向量。
在15个卷积核中,分为9个Laws’ masks和6个边界检测。
【论文】LearningDepth from Single Monocular Images

Multiscale 多尺度提取特征

作者为了融合全局特征,使用了三个scale。其中,scale1x为高分辨率特征,scale9x为低分辨率特征。同时考虑每一个patch周围的四个邻居。同时考虑到树木之类的景观具有垂直特征,因此将patch所在的一列分为四个垂直patch。对于每一个patch(C0)来说,一共是3*5+4=19个patch的特征进行融合。【论文】LearningDepth from Single Monocular Images

考虑到34个特征向量,对于每一个patch一共要算19*34。

特征的相对深度

上述图像中考虑x和y两块相邻patch,计算他们是否属于同一物体,或者是不同的物体。对于17个filter的output(absolute),采用10个bins的直方图量化。从170个bins中判断是否属于同一物体。

模型

作者使用了Gaussian MRF(1)和 Laplacians MRF(2)两种模型。【论文】LearningDepth from Single Monocular Images
【论文】LearningDepth from Single Monocular Images
相比较Gaussian Distribution, Laplacians Distribution
【论文】LearningDepth from Single Monocular Images文章来源地址https://www.toymoban.com/news/detail-433726.html

  1. 特征相对深度的直方图是天然的Laplacians分布。
  2. 具有更宽的尾部,因此对于深度估计中的离群值和异常值有更好的鲁棒性。
  3. 结果也证明使用Laplacians model估计出的深度具有更清晰的边缘。

结论

特征提取

  1. using multiscale and column features significantly improves the algorithm’s performance.

数据集导致的error

  1. Some of the errors can be attributed to errors or limitations of the training set. For example, the training set images and depthmaps are slightly misaligned, and therefore the edges in the learned depthmap are not very sharp.
  2. Further, the maximum value of the depths in the training set is 81m; therefore, far-away objects are all mapped to the one distance of 81m.

到了这里,关于【论文】LearningDepth from Single Monocular Images的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(48)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(42)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(40)
  • 【自监督论文阅读笔记】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

    2023         本文展示了一种 学习高度语义图像表示 的方法,而 不依赖于手工制作的数据增强 。本文介绍了 基于图像的联合嵌入预测架构 (I-JEPA) ,这是一种用于从图像进行自监督学习的 非生成方法 。 I-JEPA 背后的想法很简单: 从单个上下文块,预测同一图像中各种目

    2024年02月09日
    浏览(44)
  • 【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

    论文地址:https://doi.org/10.48550/arXiv.2109.14335 单幅图像超分辨率(SISR)是图像处理中的一项重要任务,旨在提高成像系统的分辨率。近年来,在深度学习(DL)的帮助下,SISR取得了巨大的飞跃,并取得了可喜的成果。在本综述中,我们对基于dl的SISR方法进行了概述,并根据重建效率

    2024年02月08日
    浏览(46)
  • huggingface 连不上 from_pretrained from_single_file

    huggingface的缓存目录 ~/.cach   改为: https://www.cnblogs.com/FrostyForest/p/17841926.html python diffusers StableDiffusionXLPipeline 离线使用_runwayml/stable-diffusion-v1-5 离线下载-CSDN博客 

    2024年01月22日
    浏览(36)
  • Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular Video

    Github: https://seanchenxy.github.io/HandAvatarWeb MANO-HD模型:作为高分辨率网络拓扑来拟合个性化手部形状 将手部几何结构分解为每个骨骼的刚性部分,再重新组合成对的几何编码,得到一个跨部分的一致占用场 纹理建模:在MANO-HD表面设计了可驱动的anchor,记录反照率;定向软占用

    2024年02月07日
    浏览(42)
  • 【3D目标检测】3D Object Detection from Images for Autonomous Driving: A Survey

    这是一篇22年的综述,介绍了3D目标检测中基于图像的检测算法。 背景: 基于图像的3D目标检测是一个病态的问题,因为我们要做的是从2D的输入中得到一个3D的结果。 相关性: 基于图像的3D目标检测通常会与很多任务,如2D目标检测、深度估计、立体匹配和基于点云的3D目标

    2024年02月08日
    浏览(48)
  • 【论文阅读】CubeSLAM: Monocular 3D Object SLAM

    这一部分是论文中最难理解的一章,作者的主要想法,是利用2d图像来生成3d的目标包围框(bounding box),一方面这个思路本身就不是很好懂,另一方面,作者写这一章还是用的倒叙,显得更难理解了。 3d包围框的定义 对于本文的3d包围框,需要使用九个量来定义,可以分为三

    2024年02月07日
    浏览(42)
  • CubeSLAM: Monocular 3D Object SLAM 论文笔记

    提出了一种静态和动态环境下单幅图像3D长方体目标检测和多视点目标SLAM的方法,并证明了这两个部分是相互促进的。 首先,对于单图像目标检测,我们通过2D包围盒和消失点采样生成高质量的长方体轮廓。基于与图像边缘的对齐,进一步对方案进行评分和选择。 其次,提出

    2023年04月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包