3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

这篇具有很好参考价值的文章主要介绍了3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0 写在前面

分享最近在BEV感知方面的工作,欢迎自动驾驶同行交流学习,助力自动驾驶早日落地。

1.概述

对于自动驾驶而言,BEV(鸟瞰图)下的目标检测是一项十分重要的任务。尽管这项任务已经吸引了大量的研究投入,但灵活处理自动驾驶车辆上安装的任意相机配置(单个或多个摄像头),仍旧是一个不小的挑战。

为此提出BEVFormer,利用了Transformer强大的特征提取能力以及Timestamp结构的时序特征的查询映射能力,在时间维度和空间维度对两个模态的特征信息进行聚合,增强整体感知系统的检测效果。

论文连接:https://arxiv.org/pdf/2203.17270v1.pdf

代码链接:GitHub - zhiqi-li/BEVFormer

关于BEVFormer

BEVFormer通过预定义的网格状BEV查询,将时间和空间进行交互,从而挖掘空间和时间信息。为了聚合空间信息,我们设计了一个空间交叉注意( spatial cross-attention),每个BEV查询都从摄像机视图的感兴趣区域提取空间特征。对于时间信息,我们提出了一种时间自我注意( temporal self-attentio),以反复融合历史BEV信息。在nuScenes数据集上,NDS评估值指标达到了SOTA : 56.9%,比之前基于激光雷达的SOTA方法性能高9个点。我们进一步表明,BEVFormer显著提高了低能见度条件下目标速度估计和调用的精度。

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

 图1

2.结构框架

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

 图2

BEVFormer的编码层包含网格状的BEV查询、时间自我注意和空间交叉注意。

在空间交叉注意中,每个BEV查询只与感兴趣区域的图像特征交互。

在时间自注意力中,每个BEV查询都与两个功能交互:当前时间戳的BEV查询和前一个时间戳的BEV功能。

3.配置环境详细参考源码,这里不一一阐述,在这里分享我配置过程中的问题及解决方法

  • 报错:No module named 'tools'  分析:绝对路径没有识别到 
  • bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市
  • 解决:export PYTHONPATH=${PYTHONPATH}:/home/mnt/mmdetection3d/BEVFormer/tools
  • source ~/.profile

在终端执行:python tools/create_data.py nuscenes --root-path ./data/nuscenes --out-dir ./data/nuscenes --extra-tag nuscenes --version v1.0 --canbus ./data

若生成下图所示结果表明数据处理正确

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

4.实验结果,demo展示

nuScense包含1000个,每个约20s的数据,标注2Hz,每个样本包含6个摄像机具有360度的水平场景。对于目标检测任务有标注了1.4M个3D框,共包含10个类别。5种评价标准:ATE, ASE, AEO, AVE, AAE,另外,nuScense还提出了NDS来计算综合评分。

BEV特征能够被用于3D目标检测和地图语义分割任务上。 常用的2D检测网络,都可以通过很小的修改迁移到3D检测上。实验验证了使用相同的BEV特征同时支持3D目标检测和地图语义分割,实验表明多任务学习能够提升在3D检测上的效果。

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

bevformer复现,计算机视觉,自动驾驶,图像处理,智慧城市

连续帧的视频demo:

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo_哔哩哔哩_bilibili3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者 小张做CV, 作者简介 一个做自动驾驶感知的码农,独角兽实习生,相关视频:讲师亲授!《深度学习实战》课纲解读与学习指导,0基础直达论文发水平,就业&毕设&竞赛一步到位!,终于找到了!这绝对是全B站最详细(没有之一)OpenCV入门到精通全套视频,整整150集(建议收藏慢慢看),最全!Transformer最新顶会论文100篇合集,语义SLAM(ORBSLAM2+FCAF3D),震撼!AI自动写程序,CVPR2022车道线检测SOTA工作CLRNet在Tusimple数据集训练测试demo,助力自动驾驶早日落地,【YOLO目标检测】不愧是清华教授,3小时就把导师三年没让我搞明白的YOLOv7/v6/v5/v4/v3/v2/v1讲明白了!简直让我茅塞顿开!,ChatGPT VScode 插件已上线。,ECCV2022 SimpleRecon 无需 3D 卷积的高质量三维重建方案,终于找到了!这绝对是全B站最详细(没有之一)OpenCV入门到精通全套视频,整整130集(建议收藏慢慢看)https://www.bilibili.com/video/BV16P411K7rp/

写在最后:由于我的设施有限,训练数据有所减少,推荐大家最好在8个GPU上训练

回答:从视觉算法的角度来说,识别物体是否存在更多是语义层面的问题,这一过程依赖于训练数据,必然存在漏检、误检等错误。而通过 LiDAR 等设备从物理层面上识别物体的存在则更为可靠。此外,多尺度、小物体检测等视觉算法中存在的传统问题也会制约系统的性能。

具体流程大家可通过bilibili评论区询问,我会在评论区给大家解答,更多优质资料分享可通过本人CSDN公主号,大家关注后留言即可文章来源地址https://www.toymoban.com/news/detail-831016.html

到了这里,关于3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【计算机视觉|人脸建模】PanoHead:360度几何感知的3D全头合成

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{circ} ∘ 链接:[2303.13071] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{circ} ∘ (arxiv.org) 最近,在计算机视觉和计算机图形领域,对3D人头的合成和重建引起了

    2024年02月07日
    浏览(41)
  • mmdetection3d-之(一)--FCOS3d训练nuscenes-mini数据集

    参考网上的博客,出现各种错误,最大的是: AssertionError: Samples in split doesn\\\'t match samples in predictions. 给了解决方案,也不知道那个数字是怎么来的。索性自己来一遍,参考了github issue。   第一步,下载数据集并解压: 第二步,修改代码 tools/create_data.py   第三步,制作数据

    2024年02月15日
    浏览(32)
  • 纯视觉都有哪些量产方案?单目3D感知在自动驾驶中的应用一览(3D检测/BEV/占用网络)

    尽管基于点云的3D目标检测算法性能不断提升,在KITTI和Nuscenes等榜单上碾压视觉方案。但是激光雷达相对高昂的造价和对各种复杂天气情况的敏感性限制激光雷达的应用范围,使得研究人员更多的探索基于视觉的3D检测。 纯视觉的3D检测输入一般是单目图像或多目图像,只需

    2024年03月19日
    浏览(40)
  • mmdetection3d nuScenes (持续更新)

    本文为博主原创文章,未经博主允许不得转载。 本文为专栏《python三维点云从基础到深度学习》系列文章,地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。         Mmdetection3d集成了大量3D深度学习算法,其中很大一部分可以在智能驾驶nuScenes数据集上运行。在算法

    2023年04月15日
    浏览(30)
  • Nuscenes——实现世界坐标3D点投影到像素坐标系中

    首先在 mmdetection3d/tools/data_converter/nuscenes_converter.py 中, get_2d_boxes() 可以直接从nuscenes原始sample数据中获取已标注的3D box信息,因此该函数就可以实现整体投影过程。 投影原理 投影过程分为以下几步: 世界坐标系 —— Ego坐标系(自身) 这里需要世界坐标系原点变换到自身的

    2024年02月11日
    浏览(35)
  • ICCV23 | Ada3D:利用动态推理挖掘3D感知任务中数据冗余性

    ​ 论文地址:https://arxiv.org/abs/2307.08209 项目主页:https://a-suozhang.xyz/ada3d.github.io/ 3D检测(3D Detection)任务是自动驾驶任务中的重要任务。由于自动驾驶任务的安全性至关重要(safety-critic),对感知算法的延迟与准确性都有很高的要求,然而,由于车载计算平台一般硬件资源受限(

    2024年02月11日
    浏览(29)
  • (小伞每日论文速读)2023视觉领域的SOTA!InternImage究竟何方神圣?

    本篇文章的相关图片来源于论文:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions 论文链接如下:https://arxiv.org/pdf/2211.05778.pdf 碍于本人的知识水平所限,本篇文章的总结可能存在不妥之处 如作为参考,请谨慎推理内容的真实性 欢迎各路大佬指出问题! 领

    2024年02月06日
    浏览(33)
  • 【计算机视觉 | 异常检测】顶会精选!工业异常检测最新SOTA方案分享!(下)

    WinCLIP: 零/少样本异常分类和分割 「简述:」论文提出了基于窗口的CLIP(WinCLIP),具有(1) 对状态词和提示模板的组合集成以及(2) 与文本对齐的窗口/图像级特征的高效提取和汇总。作者还提出了它的少正常样本扩展WinCLIP+,利用正常图像的补充信息。在MVTec-AD(和VisA)数据集

    2024年01月20日
    浏览(34)
  • 英伟达新SOTA可对未知物体进行6D追踪和3D重建

    物体可以在整个视频中自由移动,甚至经历严重的遮挡。英伟达的方法在目标上与物体级 SLAM 的先前工作类似,但放松了许多常见的假设,从而能够处理遮挡、反射、缺乏视觉纹理和几何线索以及突然的物体运动。 英伟达方法的关键在于在线姿态图优化过程,同时进行神经重

    2024年02月12日
    浏览(22)
  • (新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割

    0 Abstract 由于Transformer模型的成功,最近的工作研究了它们在3D医学分割任务中的适用性。在Transformer模型中,与基于局部卷积的设计相比,自注意力机制是努力捕获远程依赖性的主要构建块之一。然而,self-attention操作具有平方复杂性,这被证明是一个计算瓶颈,特别是在三维

    2023年04月16日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包