【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

这篇具有很好参考价值的文章主要介绍了【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS 3D-GPT: 使用大型语言模型进行程序化 3D 建模

2023.10

论文主页
论文地址
代码地址(未放)
一句话生成3D世界,未公布代码已获141星!或引发3D建模行业革命
【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS,有意思的工作,nlp,3d,gpt,语言模型

Abstract

In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.

在追求高效的自动内容创建过程中,利用可修改参数和基于规则的系统进行程序生成是一种很有前途的方法。

然而,由于其复杂性,需要对规则、算法和参数有深入的了解,这可能是一项艰巨的工作。

为了减少工作量,我们引入了 3D-GPT 框架,该框架利用大型语言模型(LLM)进行指令驱动的 3D 建模。

3D-GPT 将大型语言模型定位为熟练的问题解决者,将程序化三维建模任务分解为可访问的片段,并为每个任务指定合适的agent。

3D-GPT 集成了三个核心agent:

  • 任务派遣agent;
  • 概念化agent;
  • 建模agent。

它们共同实现了两个目标:

  • 首先,它增强了简洁的初始场景描述,将其发展为详细的形式,同时根据后续指令动态调整文本。
  • 其次,它整合了程序生成功能,从丰富的文本中提取参数值,从而轻松地与三维软件对接,进行资产创建。

我们的实证调查证实,3D-GPT 不仅能解释和执行指令,提供可靠的结果,还能与人类设计师有效协作。此外,它还能与 Blender 无缝集成,从而实现更多的操作可能性。我们的工作彰显了 LLM 在三维建模中的潜力,为未来场景生成和动画制作的进步提供了一个基本框架。

简评

概念很有意思,但是实际很简单,本质为blender + python,由gpt生成python代码。加上项目未发布开源代码,噱头略大于实际。文章来源地址https://www.toymoban.com/news/detail-843233.html

到了这里,关于【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 以单颗CMOS摄像头重构三维场景,维悟光子发布单目红外3D成像模组

    维悟光子近期发布全新 单目红外3D成像模组 ,现可提供下游用户进行测试导入。通过结合微纳光学元件编码和人工智能算法解码,维悟光子单目红外3D成像模组采用单颗摄像头,通过单帧拍摄,可同时获取像素级配准的3D点云和红外图像信息,可被应用于机器人、生物识别等

    2024年02月03日
    浏览(30)
  • PyTorch翻译官网教程-LANGUAGE MODELING WITH NN.TRANSFORMER AND TORCHTEXT

    Language Modeling with nn.Transformer and torchtext — PyTorch Tutorials 2.0.1+cu117 documentation 这是一个关于训练模型使用nn.Transformer来预测序列中的下一个单词的教程。 PyTorch 1.2版本包含了一个基于论文Attention is All You Need的标准 transformer 模块。与循环神经网络( RNNs )相比, transformer 模型已被

    2024年02月13日
    浏览(30)
  • 【CVPR 2023 论文解读】TriDet: Temporal Action Detection with Relative Boundary Modeling

    发表时间:CVPR 2023 作者团队:北航,美团,JD Explore 代码链接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    浏览(42)
  • 【论文笔记】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

    原文链接:https://arxiv.org/abs/2312.00752 基石模型(FM)的主干网络通常是序列模型,处理任意的输入序列。但现代FM主要基于Transformer这一序列模型,及其核心的注意力。但是,自注意力仅能在上下文窗口中密集地传递信息,而无法建模窗口外部的数据;此外,其尺度与窗口长度

    2024年04月26日
    浏览(31)
  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节

    2024年01月20日
    浏览(32)
  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

    Chapter1 Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,

    2024年01月19日
    浏览(41)
  • 【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

    当时的所有的重建目标都是关于低级图像元素的,低估了高级语义。 【Q】怎么去定义高级和低级语义 VQ-KD编码器首先根据可学习码本将输入图像转换为离散令牌 然后,解码器学习重建由教师模型编码的语义特征,以离散令牌为条件 在训练VQ-KD之后,其编码器被用作BEIT预训练

    2024年02月11日
    浏览(40)
  • 自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

            深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而,存在  自然场景与RS场景之间的领域差距 ,以及 RS模型泛化能力差 等问题。开发 具有通用 RS 特征表示的基础模型 是有意义的。

    2024年02月16日
    浏览(36)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(31)
  • 102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

    官网  Nvidia2023提出的一种新的生成模型,可生成具有任意属性的高分辨率稀疏3D体素网格,以前馈方式生成数百万体素,最细有效分辨率高达 102 4 3 1024^3 102 4 3 ,而无需耗时的 test-time 优化,使用一种分层体素潜扩散模型,使用建立在高效VDB数据结构上的自定义框架,以从粗

    2024年02月03日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包