纯视觉都有哪些量产方案？单目3D感知在自动驾驶中的应用一览（3D检测/BEV/占用网络）-Toy模板网

这篇具有很好参考价值的文章主要介绍了纯视觉都有哪些量产方案？单目3D感知在自动驾驶中的应用一览（3D检测/BEV/占用网络）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

尽管基于点云的3D目标检测算法性能不断提升，在KITTI和Nuscenes等榜单上碾压视觉方案。但是激光雷达相对高昂的造价和对各种复杂天气情况的敏感性限制激光雷达的应用范围，使得研究人员更多的探索基于视觉的3D检测。

纯视觉都有哪些量产方案？单目3D感知在自动驾驶中的应用一览（3D检测/BEV/占用网络）,单目3D,自动驾驶,人工智能

纯视觉的3D检测输入一般是单目图像或多目图像，只需要安装摄像头，标定相对简单，适合大规模的商业部署。而且，图像包含丰富的场景的颜色和纹理信息，有利于模型的检测和分类。目前量产方案中，像地平线，Mobileye和stradvision都是基于视觉的3D感知方案，而单目方案由于价格更具有优势，被广泛量产于各类车辆的L2~L4方案上。

纯视觉都有哪些量产方案？单目3D感知在自动驾驶中的应用一览（3D检测/BEV/占用网络）,单目3D,自动驾驶,人工智能

纯视觉3D的学习路线

当前纯视觉3D方案主要包括多目BEV方案和单目3D/BEV方案。通常认为，视觉3D检测的发展路径是：2D车轮检测+地平假设->单目3D检测->BEV检测和occupancy检测。

纯视觉都有哪些量产方案？单目3D感知在自动驾驶中的应用一览（3D检测/BEV/占用网络）,单目3D,自动驾驶,人工智能

如果想要更全面学习和理解纯视觉3D检测，需要认真将整个流程走一遍。

2D车轮检测+地平假设，需要了解成熟的2D检测器，faster rcnn和CenterNet等，以及图像坐标系到相机坐标系再到车身坐标系的转换。
单目3D检测，需要学习CenterNet3D,FCOS3D和DD3D等单目3D检测算法，单目3D的核心是如何通过相机的几何投影模型和3D投影点等先验，得到准确深度估计。另外，像DD3D等算法，借助lidar数据预训练使得模型具有深度感知能力。
单目BEV检测，需要学习PETR,BEVDET和CaDNN等算法，学习如何把2D特征3D化，像CaDDN和BEVDET是借助深度估计网络。而PETR和BEVFormer是借助transformer来隐式做特征转换。
单目Occupancy检测。需要学习VoxFormer, FB-OCC和MonoNeRD等算法。Occupancy模型输出3D空间的每个网格是否被占用。由于是在3D空间做运算，计算量大，如何设计轻量化的Occupancy网络值得研究。另外，现在的occupancy的标签是通过高线速的激光雷达，通过多帧叠加生成的，难以大规模商用，如何生成Occupancy的监督信号也是值得研究，像利用NeRF的3D重建来给Occupancy提供监督信号也是很好的方法。

由于涉及的内容较多，时间线较长，即使是已经有工作年限的同学，也很少能够完整的走一遍，更别说未有工作经验的同学。