21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

这篇具有很好参考价值的文章主要介绍了21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

官网
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,语言模型,3d,人工智能
 将原始LiDAR数据作为输入,利用LLMs卓越的推理能力,来获得对室外3D场景的全面了解,将3D户外场景认知重构为语言建模问题,如3D captioning, 3D grounding, 3D question answering。

实现流程

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,语言模型,3d,人工智能
 给定LiDAR输入 L ∈ R n × 3 L \in \R^{n \times 3} LRn×3,n 是点的数量,使用 VoxelNet 获取 LiDAR Feature,考虑到计算成本,沿着 z轴展平特征以生成鸟瞰图(BEV) Feature F v ∈ R c × h × w F_v \in \R^{c \times h \times w} FvRc×h×w,对于最大 m 个字符的文本输入 T,使用 LLaMA 进行文本特征提取 F t ∈ R m × d F_t \in \R^{m \times d} FtRm×d,d 是特征的维数。只微调 LLaMA 和 VAT 模块中注入的 Adapter,同时冻结主要参数。

VAT

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,语言模型,3d,人工智能
 设计 K=576 个可学习的 query Embeddings,VAT生成一个包含 K 个编码视觉向量的输出,向量通过多层感知器(MLP)进行处理,然后输入到冻结的LLM中。

 由于户外LiDAR数据,如nuScenes,需要全面了解不同对象与汽车之间的方向关系,为BEV特征引入视图位置嵌入,以提高模型学习方向和几何关系的能力,构建初始参数为 0 的视图位置嵌入 V p ∈ R c × 6 V_p\in \R^{c×6} VpRc×6,根据6个视图划分BEV特征,包括前视图、前右视图、前左视图、后视图、后右视图和后左视图,在训练过程中,当处理与特定视图相关的问题时,将相应的位置嵌入注入到BEV特征和 queries 中。

在训练与左前视图相关的标题样本时,只将嵌入 V p ∈ R c × 1 V_p \in \R^{c×1} VpRc×1 的左前位置注入到BEV特征和queries的左前视图部分。如果训练样本涉及到关于整个全景场景的问题,在训练期间注入所有六个视图位置嵌入。

Training

通过三阶段训练策略,LiDAR-LLM开发了初步的规划能力。可以刺激模型对3D LiDAR数据的推理能力。
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,语言模型,3d,人工智能

Cross-Modal Alignment (3D Captioning)

 通过将整个3D场景集成到LLMs中,使模型能够捕捉LiDAR数据中的基本信息和细节。利用nuScenes中与LiDAR数据对齐的现有多视图图像来创建文本描述,利用强大的现成2D多模态LLMs (MLLMs),为每个视图生成标题,创建与LiDAR场景相对应的文本描述。然而,由于2D MLLM可能为2D图像提供与天气或颜色相关的描述,而这些描述并不适用于LiDAR数据,因此LiDAR数据的描述与2D多视图的描述并不是完全对齐的。为了解决这种不一致性,进一步使用GPT-4来过滤出更相关、更适合LiDAR数据的标题。

 LiDAR数据的文本说明往往由于其复杂的几何结构而过于详细和冗长。联合学习整体标题可能会导致LLM推理中的纠缠。训练模型来描述单个视图,以降低复杂性,输出标题由相应视图的基本事实答案使用交叉熵损失进行监督,然后指导模型理解整个全景场景并生成全局描述,将3D特征表示与LLM的文本特征空间对齐,使模型能够理解LiDAR数据中的上下文。

Perception

 赋予模型实例级的感知能力,因为它们是规划等高级教学任务的基础。采用以对象为中心的学习策略,确保模型认识到各种对象细节,如数量、定位和空间关系。学习单个3D对象的表示和与对象相关的LLM相应的文本嵌入之间的对齐。

 对象首先表示为离散标记序列,其中提取每个对象的标签和边界框。给定一个带有注释的3D对象,使用预训练的LLM的标记器将类别名称位置编码为词嵌入,在整个3D场景中实现对象感知。模型学习生成位置标记,根据LiDAR输入和指令指定区域位置(x1, y1, z1, x2, y2, z2, θ),其中θ是盒子角。通过利用输入的LiDAR数据和带有位置信息的文本,训练模型生成描述性文本。两个任务的输出都通过交叉熵损失进行监督,解锁LLM的3D感知能力。

High-level Instruction

 利用高级指令数据集(如nuScenes-QA)进一步增强模型在3D空间中的推理能力。通过使用该数据集对LiDAR-LLM进行微调,不仅提高了其理解各种指令数组的熟练程度,还使其能够生成既具有创造性又符合上下文的响应。此外,这种细化过程使LiDAR-LLM具备了进行复杂空间推理的能力,并将外部知识整合到其生成的响应中。这些任务还通过交叉熵损失进行监督,确保模型的输出与所需的高级指令有效对齐。探索了LiDAR-LLM在nuScenes数据集上的自动驾驶规划能力。直接利用训练好的模型来推断与规划相关的问题,而不是生成任何规划QA数据。

details

 采用了标准的预训练3D检测器提取激光雷达特征,CenterPoint-Voxel遵循其默认设置。点云范围为[-54.0m, 54.0m, -5.0m, 54.0m, 54.0m, 3.0m], BEV网格尺寸为[0.6m, 0.6m]。对于VAT,将可学习queries的令牌数量设置为576,令牌的维度为768。在LLM方面,采用了LLaMA-7B,兼顾效率和功效。在整个三个阶段的训练阶段,使用Adam优化器(β1, β2) =(0.9, 0.999),初始学习率为1e-4,每两个epochs将其减半。对LLaMA2中的VAT和adapter进行了6个epoch的微调。所有实验均在NVIDIA Tesla A100 gpu上进行。文章来源地址https://www.toymoban.com/news/detail-811286.html

到了这里,关于21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】大模型LLM技术生态全景图 | The Foundation Large Language Model (LLM) & Tooling Landscape

    目录 “Software is eating the world…”  “软件正在吞噬世界...”~ Marc Andreessen ~ 马克·安德森 Every company is a software company…soon every company will be an AI company.每家公司都是软件公司...很快,每家公司都将成为人工智能公司。 Everybody is using software…soon everybody will directly be using AI.每个

    2024年02月08日
    浏览(37)
  • 论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

    采用zero-shot prompting的方式,将试题转化为ChatGPT的输入 对于数学题,将公式转化为latex输入  主观题由专业教师打分 2010~2022年,一共13年间的全国A卷和全国B卷

    2024年03月15日
    浏览(41)
  • LLM(Large Language Model)大语言模型

    语言模型够大,训练的语料够多,涌现出推理能力飙升等   Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,拥有1750亿个参数。该模型在文本生成、翻译和其他任务中表现出显著的性能,在全球范围内引起了热烈的反响,目前OpenAI已经迭代到了GPT-4版本 Generative :能产

    2024年02月15日
    浏览(34)
  • Exploring the Underlying Architecture of CSS3

    在现代的网页设计中,CSS(层叠样式表)起着至关重要的作用。CSS3作为最新的CSS标准,引入了许多令人兴奋的功能和特性。但是,要真正理解CSS3的底层架构实现原理,对于前端开发者来说,是非常重要的。本文将深入探讨CSS3的底层架构,帮助读者更好地理解CSS3的工作原理。

    2024年02月14日
    浏览(28)
  • LLM:Training Compute-Optimal Large Language Models

    论文:https://arxiv.org/pdf/2203.15556.pdf 发表:2022 前文回顾: OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(缩放法则)也一直影响了后续大模型的训练。其给出的 结论是最佳计算效率训练涉及在相对适中的数据量上训练非常大的模型并在收敛之前early stopping 。

    2024年01月20日
    浏览(35)
  • Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

    大开眼界?探索多模态模型种视觉编码器的缺陷。 论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐? 作者将

    2024年01月24日
    浏览(31)
  • 吴恩达gradio课程:基于开源LLM(large language model)的聊天应用

    内容简介 Falcon 40B 是当前最好的开源语言模型之一。 使用 text-generation 库调用 Falcon 40B 的问答 API 接口。 首先仅仅在代码中与模型聊天,后续通过Gradio构建聊天界面。 Gradio 聊天界面可以保存对话历史上下文。 在聊天过程中,需要将之前对话记录与新消息一起发送给模型,才能进

    2024年02月09日
    浏览(38)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(51)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包