加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合

这篇具有很好参考价值的文章主要介绍了加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来自加利福尼亚大学的3D-LLM项目团队提到:大型语言模型 (LLM) 和视觉语言模型 (VLM) 已被证明在多项任务上表现出色,例如常识推理。尽管这些模型非常强大,但它们并不以 3D 物理世界为基础,而 3D 物理世界涉及更丰富的概念,例如空间关系、可供性、物理、布局等。

在这项工作中,可以将 3D 世界注入大型语言模型中,并引入全新的 3D-LLM 系列。

具体来说,3D-LLM 可以将 3D 点云及其特征作为输入,并执行各种 3D 相关任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航等。


加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合,AIGC,人工智能,大模型训练,ai

项目中提到:”使用我们设计的三种类型的提示机制,我们能够收集超过 30 万个涵盖这些任务的 3D 语言数据。为了有效地训练 3D-LLM,我们首先利用 3D 特征提取器从渲染的多视图图像中获取 3D 特征。然后,我们使用 2D VLM 作为骨干来训练 3D-LLM。通过引入 3D 定位机制,3D-LLM 可以更好地捕获 3D 空间信息。

ScanQA 上的实验表明,我们的模型大幅优于最先进的基线(例如,BLEU-1 分数超过最先进的分数 9%)。此外,对我们保留的 3D 字幕、任务组合和 3D 辅助对话数据集进行的实验表明,我们的模型优于 2D VLM。

定性示例还表明,我们的模型可以执行超出现有 LLM 和 VLM 范围的更多任务。项目页面: : 我们使用 2D VLM 作为骨干来训练 3D-LLM。通过引入 3D 定位机制,3D-LLM 可以更好地捕获 3D 空间信息。”

以下是3D-LLM的一些应用场景

加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合,AIGC,人工智能,大模型训练,ai文章来源地址https://www.toymoban.com/news/detail-618351.html

到了这里,关于加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Unity空间与运动(中山大学3D游戏作业3)

    代码仓库:https://github.com/linfn3/3d_game b站视频:https://www.bilibili.com/video/BV1YD4y1r7GR/?vd_source=6d44ed4eff5157be7cd6838983f17b44 物体运动的本质 unity中物体运动的本质是游戏对象的位置和状态变化。 三种方法实现抛物线运动 使用translate方法 将transfrom.position1加上改变向量 position加减实现

    2024年02月03日
    浏览(43)
  • 工程训练(第十一章 3D打印 )-江苏海洋大学-mooc 答案

    1.桌面级3D打印设备常选用ABS、PLA等丝材,相应的温度设置不同,ABS丝材一般设置范围是 240-270℃ 2.用3D打印技术及其设备可以精准制造复杂类型模具与零件,其基本工作原理是 层状堆积成形 3.使用触屏式3D打印设备前,要厘清操作步骤,第一步是 升温喷头 ​ 4.模型导入控制设

    2024年02月05日
    浏览(40)
  • 21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    官网  将原始LiDAR数据作为输入,利用LLMs卓越的推理能力,来获得对室外3D场景的全面了解,将3D户外场景认知重构为语言建模问题,如3D captioning, 3D grounding, 3D question answering。  给定LiDAR输入 L ∈ R n × 3 L in R^{n times 3} L ∈ R n × 3 ,n 是点的数量,使用 VoxelNet 获取 LiDAR Fe

    2024年01月21日
    浏览(44)
  • [arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在 指令跟随 和 2D图像理解

    2024年02月02日
    浏览(56)
  • Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】

    目录 P1 2D Detection and Segmentation P2 Video = 2D + time series P3 Focus on Two Problems P4 Many more topics in 3D Vision P5-10 Multi-View CNN  P11 Experiments – Classification Retrieval P12 3D Shape Representations P13--17 3D Shape Representations: Depth Map Per-Pixel Loss (L2 Distance)  Problem: Scale / Depth Ambiguity Predicting Depth Maps  

    2024年02月10日
    浏览(39)
  • 贵州大学oj C++ 第五次 1.抽象的三维立体形状类Shape3D

    记录学习日常 代码可能有错 大家多多包涵 有好的建议提出的话 我会开心接纳 初学阶段  定义一个抽象的三维立体形状类Shape3D,该类有一个数据成员shapeName(形状名称),一个纯虚函数calVolume(计算体积),用于计算三维立体形状的体积。 (1)请完成Shape3D类的定义,定义

    2024年02月16日
    浏览(45)
  • 药物 3D 打印新突破:圣地亚哥大学用机器学习筛选喷墨打印生物墨水,准确率高达 97.22%

    内容一览: 药物喷墨打印是一种高度灵活和智能化的制药方式。据相关报告统计,该领域市场规模将在不久的未来呈现指数级增长。过往,筛选合适生物墨水的方法费时且费力,因此也成为药物喷墨打印领域面临的主要挑战之一。为解决这一问题,国际药剂学期刊《Internat

    2024年02月10日
    浏览(50)
  • CASAIM与南京航空航天大学在自动化叶片曲面分析系统开展合作,推动航空航天发动机零部件自动化3D检测进程

    近期, CASAIM与南京航空航天大学在自动化叶片曲面分析系统展开深入合作, 充分发挥双方在航空航天和智能检测领域优势,共同推动航空航天发动机零部件自动化3D检测进程。 南京航空航天大学创建于1952年10月,是新中国自己创办的第一批航空高等院校之一。 在70余年的办

    2024年02月09日
    浏览(48)
  • 【IT资讯速递】清华大学推出 D-Bot,用 AI 大模型协助管理数据库;ChatGPT 与 Stack Overflow 的对决;免费在线AI工具LeiaPix:一键将图片转3D动画

    2023年8月17日 星期四 癸卯年七月初二 第000004号 本文收录于 IT资讯速递 专栏, 本专栏 主要用于发布各种IT资讯,为大家可以省时省力的就能阅读和了解到行业的一些新资讯 清华大学研究团队日前在 ArXiv 中发布了一篇名为《LLM As DBA》的论文,其中介绍了用 AI 大模型管理数据库

    2024年02月12日
    浏览(73)
  • 【LLM】LangChain基础使用(构建LLM应用)

    LangChain应用开发框架,支持python和typescript语言;可以帮助生成prompt模板,并通过代理充当其他组件(如提示模板、其他大语言模型、外部数据和其他工具)的中央接口。 LangChain可以直接与 OpenAI 的 text-davinci-003、gpt-3.5-turbo 模型以及 Hugging Face 的各种开源语言模如 Google 的 fl

    2024年02月04日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包