[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

这篇具有很好参考价值的文章主要介绍了[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074

最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在指令跟随2D图像理解方面表现出了潜力。虽然这些模型很强大,但它们尚未被开发成能够理解更具挑战性的3D物理场景,特别是在稀疏的户外LiDAR数据方面。在本文中,我们引入了LiDAR-LLM,该模型以原始LiDAR数据作为输入,并利用LLMs的卓越推理能力来全面理解户外3D场景。我们的LiDAR-LLM的核心见解是将3D户外场景认知重新构想为一个语言建模问题,涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言,由于缺乏3D LiDAR-文本配对数据,我们引入了一个三阶段的训练策略,并生成相关数据集,逐步将3D模态与LLMs的语言嵌入空间对齐。此外,我们设计了一个视图感知变压器(VAT)来连接3D编码器和LLM,有效地弥合了模态差距,并增强了LLM对视觉特征的空间定位理解。我们的实验表明,LiDAR-LLM具有理解关于3D场景的各种指令并进行复杂的空间推理的优越能力。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1,而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。网页链接:https://sites.google.com/view/lidar-llm

exploring the potential of large language models (llms) in learning on graph,机器视觉,论文阅读,语言模型,人工智能
图1. LiDAR-LLM的特性。我们提出的LiDAR-LLM以3D LiDAR数据为输入,并将3D模态与语言嵌入空间对齐,充分利用LLM的卓越推理能力来理解户外3D场景。为了增强LiDAR特征的空间定位表示,我们在LiDAR编码器和LLM之间引入了一个View-Aware Transformer 视图感知变压器。同时,底部展示了从我们生成或使用的LiDAR-文本数据中衍生出的示例,涵盖了一系列与3D相关的任务。
exploring the potential of large language models (llms) in learning on graph,机器视觉,论文阅读,语言模型,人工智能
图2 我们LiDAR-LLM框架的概述。初始列展示了我们的3D特征提取器,该提取器处理LiDAR点云输入以得到3D体素特征。随后,特征沿z轴展平,生成鸟瞰图(BEV)特征。视图感知变压器(VAT)接受BEV嵌入和可学习的查询作为输入,输出的查询作为软提示输入到冻结的LLM。在VAT中,我们引入了六个视图位置嵌入到BEV特征中,以及相应的查询,以增强空间定位表示的能力。该框架将LiDAR模态与语言嵌入空间对齐,使我们能够充分利用LLM来全面理解户外3D场景。
exploring the potential of large language models (llms) in learning on graph,机器视觉,论文阅读,语言模型,人工智能
图3. 提示性问题和LiDAR-LLM预测的定性示例文章来源地址https://www.toymoban.com/news/detail-785864.html

到了这里,关于[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 学习目的是在无人工标注的情况下通过自定制的任务(hand-crafted pretext tasks)学习丰富的表示。 使用 自监督学习 为卷积网络(CNN)学习表示已经被验证对视觉任务有效。作为CNN的一种替代方案, 视觉变换器 (ViT)具有强大的表示能力,具有 空间自注意力和通道

    2024年02月09日
    浏览(29)
  • 论文阅读 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    题目:2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds ECCV 2022。建议打开csdn右侧目录栏,部分个人理解和觉得重要内容有加粗表示,其余内容主要是机器翻译。如果对整个领域比较熟悉直接从第三章开始看就行。 主要贡献:2D先验辅助语义分割 (2DPASS)+多尺度融合到单知

    2024年01月25日
    浏览(38)
  • [论文阅读]PillarNeXt——基于LiDAR点云的3D目标检测网络设计

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR点云的3D目标检测网络设计 论文网址:PillarNeXt 代码:PillarNeXt 这篇论文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷达点云3D目标检测的网络设计。主要的贡献

    2024年02月08日
    浏览(30)
  • 论文阅读:Rethinking Range View Representation for LiDAR Segmentation

    来源ICCV2023 LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法,因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中,我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到, “多对一”的映射 , 语义不连贯性 , 形状变

    2024年02月02日
    浏览(36)
  • 论文阅读:SuMa++: Efficient LiDAR-based Semantic SLAM

    来源:IROS 2019 链接:https://ieeexplore.ieee.org/document/8967704 可靠、准确的定位和映射是大多数自动驾驶系统的关键组成部分。除了映射环境的几何信息外,语义在实现智能导航行为方面也起着重要作用。在大多数现实环境中,由于移动对象引起的动态变换,这个任务特别复杂,这

    2024年03月12日
    浏览(63)
  • [论文阅读]MVF——基于 LiDAR 点云的 3D 目标检测的端到端多视图融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 论文网址:MVF 论文代码: 这篇论文提出了一个端到端的多视角融合(Multi-View Fusion, MVF)算法,用于在激光雷达点云中进行3D目标检测。论文的主要贡献有两个: 提出了动态体素化(Dynamic Voxelization)的概念。相比传统的硬体素

    2024年01月23日
    浏览(34)
  • 【论文阅读】以及部署BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一个简单而强大的LiDAR-相机融合框架 NeurIPS 2022 多模态传感器融合意味着信息互补、稳定,是自动驾驶感知的重要一环,本文注重工业落地,实际应用 融合方案: 前融合(数据级融合)指通过空间对齐直接融合不同模态的

    2024年02月04日
    浏览(34)
  • 论文阅读:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

    目录 摘要 Motivation 整体架构流程 技术细节 雷达和图像数据的同步 小结 论文地址:  [2203.16258] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data (arxiv.org) 论文代码: GitHub - valeoai/SLidR: Official PyTorch implementation of \\\"Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data\\\"    

    2024年02月08日
    浏览(37)
  • 论文阅读:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    LIF-Seg:用于 3D LiDAR 语义分割的 LiDAR 和相机图像融合 来源:华科 + 商汤 未发表2021 链接:https://arxiv.org/abs/2108.07511 个人觉得有用的和自己理解加粗和()内表示,尽量翻译的比较全,有一些官方话就没有翻译了,一些疑惑的地方欢迎大家探讨。如果对整个领域比较熟悉看一、

    2023年04月25日
    浏览(29)
  • 论文阅读RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

    论文:https://arxiv.org/pdf/2103.10039.pdf 代码:https://github.com/tusen-ai/RangeDet 提出了一个名为RangeDet的新型3D物体检测技术,利用激光雷达数据。 RangeDet的核心在于使用了一种紧凑的表示方法,称为范围视图,与其他常用方法相比,它避免了计算误差。 根据论文中的讨论,使用范围视

    2024年04月13日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包