论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

这篇具有很好参考价值的文章主要介绍了论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言:

本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭

论文地址: https://arxiv.org/abs/2403.02151
代码: https://github.com/VAST-AI-Research/Tr ipoSR
先来看下演示效果

triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV
TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并泛化到不同领域的对象,效果确实不错,但笔者在测试真人图片以及较复杂结构的单个建筑时候,建模效果仍然不够理想。

摘要

TripoSR,这是一种利用 Transformer 架构进行快速前馈 3D 生成的 3D 重建模型,可在 0.5 秒内从单个图像生成 3D 网格。 TripoSR 基于 LRM 网络架构,集成了数据处理、模型设计和训练技术方面的重大改进。 对公共数据集的评估表明,与其他开源替代品相比,TripoSR 在数量和质量上都表现出卓越的性能。 TripoSR 在 MIT 许可下发布,旨在为研究人员、开发人员和具有 3D 生成人工智能最新进展的创意。

1.介绍

近年来,3D 生成式人工智能的发展呈现出多种发展趋势,模糊了单个或少数视图的 3D 重建与 3D 生成之间的界限 。 通过引入大规模公共 3D 数据集 和生成模型架构的进步,这种融合得到了显着加速。 为了克服 3D 训练数据的稀缺性,最近的研究Forts 已经探索利用 2D 扩散模型从文本提示或输入图像 创建 3D 资产。

DreamFusion [20] 是一个著名的例子,它引入了分数蒸馏采样(SDS),采用 2D 扩散模型来指导 3D 模型的优化。 这种方法代表了利用 2D 先验进行 3D 生成的关键策略,在生成详细的 3D 对象方面取得了突破。 然而,由于广泛的优化和计算需求以及精确控制输出模型的挑战,这些方法通常面临生成速度慢的限制。 相反,前馈 3D 重建模型实现显着更高的计算效率。 沿着这个方向的几种最新方法在不同 3D 数据集上的可扩展训练中显示出了前景。 这些方法通过快速前馈推理促进快速 3D 模型生成,并且更有可能对生成的输出提供精确控制,标志着这些模型的效率和适用性的显着转变。 在这项工作中,我们引入了用于快速进给的 TripoSR 模型在 A100 GPU 上从单个图像进行正向 3D 生成只需不到 0.5 秒。 基于 LRM 架构,我们在数据管理和渲染、模型设计和训练技术方面引入了一些改进。 实验结果表明,与其他开源替代方案相比,无论在数量上还是在质量上都具有优越的性能。

2.TripoSR:数据和模型的改进

2.1TripoSR概述

TripoSR的设计基于LRM,在数据管理、模型和训练策略方面有一系列技术进步。 我们现在概述该模型,然后介绍我们的技术改进。

与 LRM 类似,TripoSR 利用 Transformer 架构,专为单图像 3D 重建而设计。 它采用单个 RGB 图像作为输入,并输出图像中对象的 3D 表示。 TripoSR 的核心包括以下组件:图像编码器、图像到三平面解码器和基于三平面的神经辐射场 (NeRF)。 图像编码器使用预先训练的视觉变换器模型 DINOv1 进行初始化,该模型将 RGB 图像投影到一组潜在向量中。 这些向量对图像的全局和局部特征进行编码,并包含重建 3D 对象所需的信息。 随后的图像到三平面解码器将潜在向量转换为三平面 NeRF 表示形式 。 triplane-NeRF 表示是一种紧凑且富有表现力的 3D 表示,非常适合表示具有复杂形状和纹理的对象。 我们的解码器由一堆变压器层组成,每个变压器层都有一个自注意力层和一个交叉注意力层。 自注意力层允许解码器关注三平面表示的不同部分并学习它们之间的关系。 交叉注意力层允许解码器关注来自图像编码器的潜在向量,并将全局和局部图像特征合并到三平面表示中。 最后,NeRF 模型由一堆多层感知器 (MLP) 组成,负责预测空间中 3D 点的颜色和密度。 而不是调节图像到三平面的投影关于相机参数,我们选择允许模型在训练和推理过程中“猜测”相机参数(外部参数和内部参数)。 这是为了增强模型在推理时对野外输入图像的鲁棒性。 通过前述明确的相机参数调节,我们的方法旨在培养一种更具适应性和弹性的模型,能够处理各种现实场景,而不需要精确的相机信息。 架构的主要参数,例如数量Transformer 中的层数、三平面尺寸、NeRF 模型的细节以及主要训练配置详细信息如表 1 所示。与 LRM 相比,TripoSR 引入了多项技术改进。
triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV

2.2数据改进

我们在训练数据收集中纳入了两项改进:

• 数据管理:通过选择 Objaverse数据集的精心策划的子集(可在 CC-BY 许可下使用),我们增强了 训练数据的质量

• 数据渲染:我们采用了多种数据渲染技术,可以更接近地模拟真实世界图像的分布,从而增强模型的泛化能力,即使在经过专门训练时也是如此。与 Objaverse 数据集密切相关。

2.3模型和数据改进
Triplane Channel Optimization三平面通道优化

由于体渲染的计算成本很高,triplane-NeRF 表示中的通道配置在训练和推理期间管理 GPU 内存占用方面发挥着重要作用。 此外,通道数显着影响模型的详细和高保真重建能力。 为了追求重建质量和计算效率之间的最佳平衡,实验评估使我们采用了 40 个通道的配置。 这种选择允许在训练阶段使用更大的批量大小和更高的分辨率,同时最大限度地减少推理期间的内存需求。

Mask Loss掩模损失

在训练过程中加入了掩模损失函数,可以显着减少“漂浮物”伪影并提高重建的保真度,损失函数如下:
triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV
在训练中,需要最小化的全部损失函数如下:

triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV

Local Rendering Supervision本地渲染监督

模型完全依赖于渲染损失进行监督,因此我们的模型需要高分辨率渲染来学习详细的形状和纹理重建。 然而,高分辨率(例如 512 × 512 或更高)的渲染和监控可能会导致计算和 GPU 内存负载不堪重负。 为了解决这个问题,我们在训练期间从原始 512 × 512 分辨率图像中渲染 128 × 128 大小的随机补丁。 至关重要的是,我们增加了选择覆盖前景区域的作物的可能性,从而更加重视感兴趣的区域。 这种重要性采样策略确保了物体表面细节的忠实重建,有效平衡了计算效率和重建粒度。

3.结果

triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV
定性结果: 我们将 TripoSR 输出网格与 GSO 和 OmniObject3D 上的其他 SOTA 方法进行比较(前四列来自 GSO [6],后两列来自 OmniObject3D [30])。 我们重建的 3D 形状和纹理显着提高了质量以及比以前最先进的方法更好的细节。

triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV
我们在 3D 重建方面优于 SOTA 方法,同时实现了快速的推理时间。 图中,F-Score 与阈值 0.1 是 GSO 和 OmniObject3D 的平均值。
triposr网络结构,论文阅读,3d,三维重建,NeRF,transformer,3D视觉,CV

4.结论

在本报告中,我们提出了一种开源前馈 3D 重建模型 TripoSR。 我们模型的核心是在 LRM 网络 上开发的基于变压器(transformer-based)的架构,以及沿多个轴的重大技术改进。 根据两个公共基准进行评估,我们的模型展示了最先进的重建性能和高计算效率。 我们希望 TripoSR 能够帮助研究人员和开发人员开发开发更先进的 3D 生成人工智能模型。文章来源地址https://www.toymoban.com/news/detail-850737.html

到了这里,关于论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    1.简介 在3D人体姿态估计中存在遮挡和模糊问题,使用多相机可能会缓解这些困难,因为不同的视角可以补偿这些遮挡并用于相互一致性。目前的3D人体姿态估计中大多数都是单视角的,有一部分是多视角的,但是他们的方法依赖于相机之间的相对位置,这要用到相机的外参。

    2024年02月04日
    浏览(50)
  • 凩读论文第3篇《M3DSSD: Monocular 3D Single Stage Object Detector》

    论文地址(CVPR2021) 代码实现(PyTorch版) 本文提出一种带有特征对齐及非对称非局部注意力机制的单目三维单阶段目标检测器(Monocular 3D Single Stage object Detector, M3DSSD)。现有的anchor-based单目三维目标检测方法存在特征不匹配的问题。为了解决这种问题,作者提出了一种两步特征对齐

    2024年02月04日
    浏览(36)
  • 【论文笔记】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    原文链接:https://arxiv.org/abs/2307.02270   目前的从单目相机生成伪传感器表达的方法依赖预训练的深度估计网络。这些方法需要深度标签来训练深度估计网络,且伪立体方法通过图像正向变形合成立体图像,会导致遮挡区域的像素伪影、扭曲、孔洞。此外,特征级别的伪立体

    2024年02月08日
    浏览(46)
  • 【视觉SLAM】MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving C

    Citations: F. Wimbauer, N. Yang, L. von Stumberg,et al.MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera[C].2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.2021:6108-6118. Keywords: Training,Costs,Three-dimensional displays,Volume measurement,Robot vision systems,

    2023年04月08日
    浏览(47)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(51)
  • 【论文阅读】CubeSLAM: Monocular 3D Object SLAM

    这一部分是论文中最难理解的一章,作者的主要想法,是利用2d图像来生成3d的目标包围框(bounding box),一方面这个思路本身就不是很好懂,另一方面,作者写这一章还是用的倒叙,显得更难理解了。 3d包围框的定义 对于本文的3d包围框,需要使用九个量来定义,可以分为三

    2024年02月07日
    浏览(45)
  • Monocular 3D Object Detection with Depth from Motion 论文学习

    论文链接:Monocular 3D Object Detection with Depth from Motion 从单目输入感知 3D 目标对于自动驾驶非常重要,因为单目 3D 的成本要比多传感器的方案低许多。但单目方法很难取得令人满意的效果,因为单张图像并没有提供任何关于深度的信息,该方案实现起来非常困难。 Two view 场景

    2024年02月17日
    浏览(40)
  • 【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

    论文地址:https://doi.org/10.48550/arXiv.2109.14335 单幅图像超分辨率(SISR)是图像处理中的一项重要任务,旨在提高成像系统的分辨率。近年来,在深度学习(DL)的帮助下,SISR取得了巨大的飞跃,并取得了可喜的成果。在本综述中,我们对基于dl的SISR方法进行了概述,并根据重建效率

    2024年02月08日
    浏览(50)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(44)
  • pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

    Paper: 链接 Code: https://github.com/dcharatan/pixelsplat Author: MIT, SFU 1)几种常见的伪影 quad ① ghosting artifacts :当摄像机运动,或者物体运动时,画面会在物体旧位置留下重影,其实就是残影。 quad ② Blurring :和ghosting类似,都是把画面变糊,但是有区别。blurring指的是空域高频图像

    2024年01月20日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包