102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

这篇具有很好参考价值的文章主要介绍了102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

官网
102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
 Nvidia2023提出的一种新的生成模型,可生成具有任意属性的高分辨率稀疏3D体素网格,以前馈方式生成数百万体素,最细有效分辨率高达 102 4 3 1024^3 10243,而无需耗时的 test-time 优化,使用一种分层体素潜扩散模型,使用建立在高效VDB数据结构上的自定义框架,以从粗到细的方式生成逐步更高的分辨率网格。XCube在100 m×100 m规模的大型户外场景中的有效性,体素大小小至10 cm。

实现流程

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
 目标是学习一个以稀疏体素层次表示的大规模3D场景的生成模型,由L层由粗到细的体素网格组成 G = { G 1 , ⋅ , G L } G = \{G_1,\cdot, G_L\} G={G1,GL}及其相关的每个体素属性 A = { A 1 , ⋅ , A L } A = \{A_1,\cdot, A_L\} A={A1AL},如法线和语义。具有较小体素尺寸的较细网格 G l + 1 G_{l+1} Gl+1 严格包含在较粗网格 G l G_l Gl 中,网格 G L G_L GL的最细级别包含最多的细节。

Sparse Structure VAE

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
 稀疏结构VAE旨在学习层次结构中每个体素网格及其相关属性的紧凑潜表示。基于稀疏体素网格算子构建神经网络,分别以 φ 和 ψ 为编码器和解码器权重,对后验分布 q φ ( X ∣ G , A ) q_φ(X |G, A) qφ(XG,A) 和似然分布 p ψ ( G , A ∣ X ) p_ψ(G, A|X) pψ(G,AX) 进行建模。

 对于编码器,利用稀疏卷积神经网络通过交替应用稀疏卷积和最大池化操作,对 X 的分辨率进行下采样来处理输入G和A 。

 对于解码器,借用了[Neural Kernel Surface Reconstruction]的结构预测骨干,允许预测输入中不存在的新的稀疏体素。从 X 开始,根据细分掩模的预测逐步修剪过多的体素并细分现有的体素,最后经过几层上采样后达到 G 的分辨率

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

Hierarchical Voxel Latent Diffusion

Probabilistic Modeling

 现有的3D生成工作通常使用一个潜在扩散级别(即L = 1)。虽然这足以生成包含单个物体的复杂场景,但分辨率仍远远不足以生成大规模户外场景,其基础3D表示的有限可扩展性,以及缺乏捕捉数据从粗到细性质的概率建模,阻碍了这些方法的有效性,通过将分层潜在扩散模型与稀疏体素表示相结合来解决这个问题,对网格和潜的联合分布提出以下因子分解。

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

C l − 1 C_{l−1} Cl1是来自较粗层次的条件。

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

 c 是一个可选的全局条件,如类别标签或文本提示, p θ l ( ⋅ ) p_{θ_l}(·) pθl() 实例化为带有参数 θ l θ_l θl的扩散模型。

Diffusion Model p θ p_θ pθ

 扩散随机过程遵循马尔可夫过程,通过迭代地向随机变量添加白噪声,将随机变量的复杂分布转换为单位高斯分布 X 0 ∼ N ( 0 , I ) X_0 \sim \N (0, I) X0N(0,I)

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

 其中 0 < β t ≤ 1 0< \beta_t \leq1 0<βt1 。相反的过程是迭代地去除噪声,并在离散的步骤数 T 内达到数据分布 X T X_T XT

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

a t = 1 − β t , a ˉ t = ∏ s = 0 t a s , μ θ a_t = 1-\beta_t,\bar{a}_t = \prod^t_{s=0} a_s,\mu_\theta at=1βt,aˉt=s=0tas,μθ是参数化的可学习模块。

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
 将 v θ ( ⋅ ) v_θ(·) vθ() 实例化为[Diffusion models beat gans on image synthesis]中使用的骨干的3D稀疏变体,确保 v θ v_θ vθ 解码输出的网格结构与输入匹配,为了注入条件 C l − 1 C_{l - 1} Cl1,直接将 A l − 1 A_{l - 1} Al1的特征与网络输入连接起来, X l X_l Xl也与 G l − 1 G_{l - 1} Gl1共享相同的网格结构。时间步条件使用AdaGN实现,文本条件 c 使用 [Learning transferable visual models from natural language supervision] 裁剪编码,然后使用交叉注意力注入。

Training

level-l VAE loss

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

G ~ l , A ~ t \tilde{G}_l,\tilde{A}_t G~l,A~t是VAE解码器 ψ 给定 X l X_l Xl 的输出,KaTeX parse error: Undefined control sequence: \L at position 1: \̲L̲^{Attr}_l是监督属性预测。BCE(·)为网格结构上的二元交叉熵,使得 ψ 为混合积分布。KL(·∥·)是后验概率 p ( X l ) p(X_l) p(Xl) 和先验概率 p ( X l ) p(X_l) p(Xl) 之间的KL散度,将其设置为单位高斯N (0, I), λ 是其权重。

diffusion model loss
102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python

Sampling

 为了从Eq(1)的联合分布中采样,首先从扩散模型 p θ 1 p_{θ_1} pθ1中 提取最粗的潜在 X 1 X_1 X1。然后,使用解码器 p ψ 1 p_{ψ_1} pψ1 来生成最粗的网格 G 1 G_1 G1 及其相关属性 A 1 A_1 A1 (然后由细化网络可选地对其进行细化)。以 C 1 = { G 1 , A 1 , c } C_1 = \{G_1, A_1, c\} C1={G1,A1,c} 为条件,利用扩散模型 p θ 2 p_{θ_2} pθ2 生成下一层的潜伏 X 2 X_2 X2,这个过程一直持续到满足 { G L , A L } \{G_L, A_L\} {GL,AL} 的最高分辨率。

Implementation Details

  1. Early dilation.在体素尺寸较大的网络层中,将稀疏体素网格扩展1,使稀疏拓扑的光晕区域也表示非零特征。这有助于后面的层更好地捕捉局部上下文并生成平滑的结构。
  2. Refinement network.分解模型的一个固有问题是误差累积,其中更高分辨率的网格不能轻易修复先前层的工件。通过在VAE解码器的输出中添加一个细化网络来缓解这一问题,该网络对 G l G_l Gl A l A_l Al 进行了细化。细化网络的架构类似于[Neural kernel surface reconstruction],在解码之前,通过向VAE的后验添加噪声来增强其训练数据

利用VDB结构来存储稀疏的3D体素网格。由于其紧凑的表示(340万体素只需要11MB)和快速的查找程序,能够以非常高效的方式实现常见的神经操作符,如卷积和池化。所提出框架完全在GPU上运行(包括网格构建),能够在毫秒内处理 102 4 3 1024^3 10243大小的3D场景,比目前最先进的稀疏3D学习框架TorchSparse运行速度快3倍,内存使用率是∼0.5倍

Dataset

使用ShapeNet数据集,为构建用于训练的groundtruth体素层次结构,将每个网格体素化为 51 2 3 512^3 5123 分辨率,并使用的train/val/test分割。

实验

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python
102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies,# 3D重建,3d,python文章来源地址https://www.toymoban.com/news/detail-778292.html

到了这里,关于102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文阅读]4DRadarSLAM: A 4D Imaging Radar SLAM System for Large-scale Environments

      目录   1.摘要和引言: 2. 系统框架: 2.1 前端: 2.2 回环检测: 2.3 后端: 3.实验和分析: 4.结论 1.摘要和引言: 这篇论文介绍了一种名为“4DRadarSLAM”的新型4D成像雷达SLAM系统,旨在提高大规模环境下的定位与地图构建性能。与传统的基于激光雷达的SLAM系统相比,该系统

    2024年01月23日
    浏览(60)
  • 《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 12 Large-Scale Machine Learning

    来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPT Algorithms called “machine learning” not only summarize our data; they are perceived as learning a model or classifier from the data, and thus discover something about data that will be seen in the future. The term unsupervised refers to the fact that the input data does

    2024年02月10日
    浏览(54)
  • [论文笔记]小目标识别文献综述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目标检测= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    浏览(46)
  • 论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

    在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数

    2024年02月11日
    浏览(59)
  • 《论文阅读12》RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

    研究领域:全监督3D语义分割(室内,室外RGB,kitti) 论文:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds CVPR 2020 牛津大学、中山大学、国防科技大学 论文链接 论文github   现有的语义分割网络几乎所有都限于极小的3D点云 (例如,4k个点或1×1米块),并且不能直接

    2024年02月12日
    浏览(44)
  • 【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

    论文主页 论文地址 代码地址(未放) 一句话生成3D世界,未公布代码已获141星!或引发3D建模行业革命 In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given i

    2024年03月25日
    浏览(48)
  • Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)

    本篇是《Diffusion Model (扩散生成模型)的基本原理详解(一)Denoising Diffusion Probabilistic Models(DDPM)》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一篇相同,读者可自行查阅,本篇着重介绍Score-Based Generative Modeling(SGM)的部分,本篇的理论部分参

    2024年02月09日
    浏览(48)
  • Using Docker Compose to Scale Your Microservice Archite

    作者:禅与计算机程序设计艺术 在微服务架构兴起之后,容器技术迅速成为云计算中的重要力量,docker及其相关工具提供了一种轻量级虚拟化环境,能够将应用程序打包成独立、可移植的容器,并利用docker compose等工具实现容器编排和管理。容器技术主要用于部署微服务,通

    2024年02月07日
    浏览(44)
  • 【水下图像增强】Enhancing Underwater Imagery using Generative Adversarial Networks

    原始题目 Enhancing Underwater Imagery using Generative Adversarial Networks 中文名称 使用 GAN 增强水下图像 发表时间 2018年1月11日 平台 ICRA 2018 来源 University of Minnesota, Minneapolis MN 文章链接 https://arxiv.org/abs/1801.04011 开源代码 官方:https://github.com/IRVLab/UGAN (tensorflow ) 自动水下航行器(Auto

    2024年02月03日
    浏览(46)
  • PC-NeRF: Parent-Child Neural Radiance Fields Using Sparse LiDAR Frames in Autonomous

    第二个工作,大家有时间可以去github点个小星星啦,and 希望大家不要喷啦,感谢感谢 Large-scale 3D scene reconstruction and novel view synthesis are vital for autonomous vehicles, especially utilizing temporally sparse LiDAR frames. However, conventional explicit representations remain a significant bottleneck towards representin

    2024年04月11日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包