PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

这篇具有很好参考价值的文章主要介绍了PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

作者单位

旷视

目的

本文的目标是 通过扩展 PETR,使其有时序建模和多任务学习的能力 以此建立一个 强有力且统一的框架。

本文主要贡献:

  1. 将 位置 embedding 转换到 时序表示学习,时序的对齐 是在 3D PE 上做 姿态变换实现的。提出了 feature-guided 位置编码,可以通过 2D 图像特征 reweigth 3D PE
  2. 提出了一个简单但有效的方法(引入了基于特定任务的 queries),让 PETR 支持 多任务学习,包括 BEV 分割 和 3D lane 检测
  3. 本文提出的框架想,在 3D 目标检测,BEV 分割 和 3D lane 检测 上达到了 sota 的性能。

方法

网络结构

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images,论文笔记,3d,PETRv2

时序建模

时序建模:
3D 坐标对齐:
目的是将 t-1 帧的 3D 坐标 变换到 t 帧的 3D 坐标系统。
为了清楚的描述,这里定义一些符号:

  • c(t): 相机坐标
  • l(t) : lidar 坐标
  • e(t) : 自车坐标
  • g: 全局坐标
  • T_dst^src : 原坐标系 到 目标坐标系的 变换矩阵

首先将 t-1 帧 和 t 帧 的 相机坐标系下的3D点集 投影到 雷达坐标系,然后 使用全局坐标系 作为桥梁 ,将 t-1帧雷达坐标系下的 3D点集 投影到 t 帧的 雷达坐标系下
对其之后的 t 帧 和 t-1帧的 点集 会被用于 生成 3D PE

Multi-task Learning

为了让 PETR 支持多任务学习,设计了不同的 queries,包括 BEV segmentation 和 3D lane detection

  • BEV segmentation

刚开始在 BEV空间中 初始化一些 anchor points, 然后将这些 points 送入两层的 MLP 生成 seg queries
使用 CVT 中相同的 head 生成最后预测的分割结果

  • 3D Lane Detection

3D anchor lanes 作为 query
每一个 lane 都是由 一个有序的 3d 坐标点集(n 个)组成的。这些点集都是沿着 Y轴 均匀采样的,这些 anchor 是与 Y轴 平行的。
3D 的 Lane head 会预测 lane 的 类别 以及 相对于 x 轴 和 Z 轴的偏移量。 同时由于每个车道线的长度是不固定的,所以也会预测 一个可见 向量 T (sizn n),用于控制 lane 的起始点

Feature-guided Position Encoder

PETR 中的 3D 坐标 到 3D 位置编码的 过程是 数据无关的。本文认为 3D PE 应该由 2D features 驱动,因为 图像特征 可以提供 一些信息的指导,比如深度信息。
因此在 PETRv2 中 将 2D features 经过两层 1x1 的卷积,然后最后经过一层 sigmoid 获得 attention weights,
3D 坐标 通过另一个 mlp 并与 attention weight 相乘生成 3D PE。3D PE 毁于 2D features 相加,作为 key 输入到 transformer decoder 中。

鲁棒性分析

虽然有很多关于自动驾驶系统的工作,但是只有极少数的工作 探究了 自动驾驶方法的 鲁棒性。本文针对几种 传感器的误差 对 算法的影响 进行了 探究。

  • 外参噪声
    外参噪声是很常见的,比如相机抖动 导致 外参的不准。
  • 相机丢失
  • 相机时延
    相机曝光的时间过长(比如在晚上),输入系统的图像可能是之前的图像,会对输出造成影响

鲁棒性分析结果文章来源地址https://www.toymoban.com/news/detail-599320.html

  1. 外参噪声
    噪声越大,性能下降越多,FPE 可以提升 对 外参噪声的鲁棒性
  2. 相机丢失:front (5.05% mAP 下降) 和 back(13.19% mAP下降) 相机丢失带来的影响最大,其它的相机丢失噪声的性能下降要小一些。back的视角大一些 (120°),所以影响最大。(在 nuScenes 上的实验)
  3. 使用一些未标注的 frame 来代替 关键帧,来模拟时延,下降了 3.19% mAP 和 8.4% NDS(delay 0.083s),26.08 mAP 和 36.54% NDS (delay 0.3s)

到了这里,关于PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文笔记] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    Wei, Yi, et al. “Surroundocc: Multi-camera 3d occupancy prediction for autonomous driving.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 将占用网格应用到多个相机构成的3D空间中; 使用BEVFormer中的方法获取3D特征, 然后使用交叉熵损失计算loss; 和BEVFormer区别是BEV中z轴高度为1, 这里

    2024年02月04日
    浏览(32)
  • 【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文链接:https://arxiv.org/abs/2304.00670   本文提出两阶段融合方法CRN,能使用相机和雷达生成语义丰富且位置精确的BEV特征。具体来说,首先将图像透视特征转换到BEV下,该步骤依赖雷达,称为雷达辅助的视图变换(RVT)。由于转换得到的BEV特征并非完全精确,接下来的多模

    2024年02月03日
    浏览(52)
  • CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

    参考代码:暂无 介绍:在相机数据作为输入的BEV感知算法中很多是需要显式或是隐式使用相机内外参数的,但是相机的参数自标定之后并不是一直保持不变的,这就对依赖相机标定参数的算法带来了麻烦。如何提升模型对相机参数鲁棒性,甚至是如何去掉相机参数成为一种趋

    2024年02月01日
    浏览(39)
  • AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback

    本文是LLM系列文章,针对《》的翻译。 像ChatGPT这样的大型语言模型由于能够很好地遵循用户指令而被广泛采用。开发这些LLM涉及一个复杂但鲜为人知的工作流程,需要通过人工反馈进行训练。复制和理解此指令跟随过程面临三大挑战:数据收集成本高、缺乏可靠的评估以及

    2024年02月11日
    浏览(31)
  • pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

    Paper: 链接 Code: https://github.com/dcharatan/pixelsplat Author: MIT, SFU 1)几种常见的伪影 quad ① ghosting artifacts :当摄像机运动,或者物体运动时,画面会在物体旧位置留下重影,其实就是残影。 quad ② Blurring :和ghosting类似,都是把画面变糊,但是有区别。blurring指的是空域高频图像

    2024年01月20日
    浏览(31)
  • 【3D目标检测】3D Object Detection from Images for Autonomous Driving: A Survey

    这是一篇22年的综述,介绍了3D目标检测中基于图像的检测算法。 背景: 基于图像的3D目标检测是一个病态的问题,因为我们要做的是从2D的输入中得到一个3D的结果。 相关性: 基于图像的3D目标检测通常会与很多任务,如2D目标检测、深度估计、立体匹配和基于点云的3D目标

    2024年02月08日
    浏览(35)
  • A Simple Framework for 3D Lensless Imaging with Programmablle Masks 论文代码部分

    1.1 data数据 net 在这里插入图片描述 2.1 代码整体介绍 这段代码的作用是加载PSFs数据,并进行一系列参数设置。 首先,通过设置 data_dir 变量为数据目录的路径。然后,根据场景名来选择特定于场景的参数。根据不同的场景名,设置 d1 和 d2 的值。 net 场景包括一个距离相机约

    2024年04月10日
    浏览(28)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(31)
  • 【论文笔记】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文链接:https://arxiv.org/abs/2303.10076 本文提出基于环视图像进行3D占用估计的简单框架,探索了网络设计、优化和评估。网络设计方面,虽然输出形式与单目深度估计和立体匹配不同,但网络结构与立体匹配网络相似(如下图所示),可以使用立体匹配的经验设计网络。优化

    2024年02月02日
    浏览(41)
  • 超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!

    近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!

    2023年04月08日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包