使用 mmDetection3D 进行 单目3D 目标检测:基于 KITTI 数据集的实践
引言
在计算机视觉领域,3D 目标检测一直是一个备受关注的研究方向。随着深度学习的发展,越来越多的工具和框架涌现出来,为研究者和开发者提供了更多的选择。本文将介绍如何使用 mmDetection3D 这一强大的框架进行 3D 目标检测,并以 KITTI 数据集为例进行实践。
话不多说,我们先看一下实现效果,然后开始这次的学习。
1. 背景介绍和文章工作
1.1 MMdetection3D简介
MMdetection3D是一个基于PyTorch的开源框架,专门设计用于解决3D目标检测任务。它在深度学习和计算机视觉领域取得了显著的进展,为研究者和开发者提供了一系列强大的工具来处理和解决3D目标检测的挑战。
主要特点:1.以PyTorch基础。 2.3D目标检测重点,提供了多种经典的3D目标检测模型,如smoke等,以及相应的训练和测试算法。 3.支持多种3D数据集,框架支持常见的3D数据集,包括本文使用的kitti数据集。 4.灵活的配置和扩展.
1.2 KITTI数据集概述
KITTI数据集是一个用于自动驾驶和移动机器人领域的经典数据集,由德国卡尔斯鲁厄理工学院和丰田提供。该数据集包含大量的城市驾驶场景的多模态数据,涵盖图像、激光雷达和相机等信息。
数据集组成:
- 图像数据: 包含高分辨率的彩色图像,捕捉了城市环境中的不同交通场景。
- 激光雷达数据: 提供了点云数据,用于描述周围环境中的物体形状和位置。
- 相机数据: 包括相机参数和标定信息,有助于将图像和激光雷达数据进行准确的配准。
1.3 本文工作
本文实现将构建在mmdection3D-smoke之上。在smoke之前,其实也有很多尝试使用单目进行3d检测的网络模型,比如CenterNet3D等,相比起来,smoke在单目3d目标检测上展现出了更好的效果。
本文做的改进主要有:
- 原始版本只能从dataloader里面做inference,本文实现了直接输入单张图片,直接输入单个视频,使用摄像头三种方式;
- 版本有着各种各样的限制,而现在可以传入一个KITTI的video path,就可以直接匹配好kitii数据集对应的摄像头内参进行预测。
- 本文探索了模型在nucsenes数据上的效果,比如从nuscenes中下载的图片,采用预训练权重和nuscenes相机内参进行推理的效果
2. 环境准备
在开始之前,确保你已经安装了必要的软件和库,包括Python,PyTorch,MMdetection3D等。你可以按照官方文档提供的步骤进行安装。官方文档非常的详细,相信大家可以自行配置好。
3. 数据预处理
在进行训练之前,我们需要对KITTI数据集进行预处理,以符合MMdetection3D的要求。这包括数据的格式转换、标注文件的处理等。如果需要进行训练,则可以更具具体的步骤可以参考MMdetection3D文档中关于数据预处理的说明。而在本文中,只关注应用部分。
因此,在本文的3d目标检测任务中,我们从kitti数据集中下载得到了以下几种预处理的数据:
- 图片:KITTI数据集直接下载下来的都是图片,以及有对应好的内参等表述文件。
- 视频:作者花了一定的功夫下载下来了KITTI完整原始的几个视频数据集片段作为测试(真的很难找)
- 内参文件:对应于KITTI数据集使用的相机内参的pkl文件(这个文件内容很复杂,不必过分的在意内容,推理时只需要学会使用即可)
4. 代码编写
4.1预设值参数代码
def parse_args():
parser = ArgumentParser()
# 图片推理模式使用的图片路径
parser.add_argument('--img', help='image file', default="./demo/data/nuscenes/image/2.jpg")
# 内参pkl文件
parser.add_argument('--ann', help='ann file', default="./demo/data/nuscenes/calib/mono3d_nuscenes.pkl")
# 视频推理模式的视频路径
parser.add_argument('--video_img', help='video file', default="./demo/data/kitti/video/4.mp4")
# 视频推理时使用的相机内参
parser.add_argument('--video_ann', help='ann file', default="./demo/data/kitti/calib/000008.pkl")
# parser.add_argument('--video_img', help='video file', default="./demo/data/nuscenes/video/3.mp4")
# parser.add_argument('--video_ann', help='ann file', default="./demo/data/nuscenes/calib/mono3d_nuscenes.pkl")
# 预训练配置路径,不用改
parser.add_argument('--config', help='Config file', default="./configs/smoke/smoke_dla34_dlaneck_gn-all_4xb8-6x_kitti-mono3d.py")
# 预训练权重
parser.add_argument('--checkpoint', help='Checkpoint file', default="./checkpoints/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d_20210929_015553-d46d9bb0.pth")
parser.add_argument(
'--device', default='cuda:0', help='Device used for inference')
parser.add_argument(
'--cam-type',
type=str,
default='CAM_FRONT',
help='choose camera type to inference')
# 推理模式选择
parser.add_argument("--mode", type=int, default=1, help="image, video or camara")
parser.add_argument(
'--score-thr', type=float, default=0.30, help='bbox score threshold')
parser.add_argument(
'--show',
action='store_true',
help='show online visualization results')
parser.add_argument(
'--snapshot',
action='store_true',
help='whether to save online visualization results')
args = parser.parse_args()
return args
4.2 推理坐标代码
# 单张图片推理
result = inference_mono_3d_detector(model, args.img, args.ann,
args.cam_type)
file_name = args.img.split('/')[-1].split('.')[0]
# 提取预测实例信息
pred_instances_3d = result.get('pred_instances_3d', None)
上面代码中:
pred_instances_3d
是我们得到的推理结果,则我们可以从这个推理结果中得到画在图上的长方体的坐标。
def calculate_rotated_corners(box_instance):
if box_instance is not None:
coordinates = box_instance.tensor[0].cpu().numpy()
x1, y1, z1, x2, y2, z2, yaw = coordinates
# Calculate half sizes in each dimension
half_x = (x2 - x1) / 2
half_y = (y2 - y1) / 2
half_z = (z2 - z1) / 2
# Calculate the rotation matrix for the yaw angle
rotation_matrix = np.array([[np.cos(yaw), -np.sin(yaw), 0],
[np.sin(yaw), np.cos(yaw), 0],
[0, 0, 1]])
# Define the eight corners of the box
corners = [
[half_x, half_y, half_z],
[half_x, half_y, -half_z],
[half_x, -half_y, half_z],
[half_x, -half_y, -half_z],
[-half_x, half_y, half_z],
[-half_x, half_y, -half_z],
[-half_x, -half_y, half_z],
[-half_x, -half_y, -half_z]
]
# Rotate the corners based on the yaw angle and return the rotated corners
rotated_corners = []
for corner in corners:
rotated_corner = np.dot(rotation_matrix, corner)
rotated_corners.append(rotated_corner + np.array([x1, y1, z1]))
return rotated_corners
return None
4.3 利用接口可视化
visualizer.add_datasample(
'result',
data_input,
data_sample=result,
draw_gt=False,
show=args.show,
wait_time=-1,
out_file='./demo/output/{}_result.png'.format(file_name),
pred_score_thr=args.score_thr,
vis_task='mono_det')
可以利用mmdection3d的接口进行可视化。
当有了以上代码,我们便可以进行我们的推理了。
5.结果可视化
5.1图像结果
5.2视频结果
6.总结
本文介绍了如何使用 MMdetection3D 框架进行单目3D目标检测,以 KITTI 数据集为例进行实践。以下是文章的主要内容和亮点总结:
- 背景介绍: 介绍了 MMdetection3D 框架,这是一个基于 PyTorch 的开源框架,专注于解决3D目标检测任务。同时,对
KITTI 数据集进行了概述,该数据集是自动驾驶和移动机器人领域的经典数据集。 - 文章工作: 文章在 MMdection3D 的 smoke
模型基础上进行改进,使得推理过程更加灵活,支持单张图片、单个视频和摄像头输入。还探索了模型在 nuscenes 数据集上的效果。 - 环境准备: 提供了环境准备的步骤,确保读者已经安装了必要的软件和库,包括 Python、PyTorch、MMdetection3D。
- 数据预处理: 强调了在进行训练之前需要对 KITTI 数据集进行预处理,以满足 MMdetection3D
的要求。文章列举了预处理过程中涉及到的几种数据,包括图片、视频和相机内参文件。 - 代码编写: 提供了预设值参数代码、推理坐标代码和利用接口可视化的代码片段。这些代码展示了如何使用 MMdetection3D
进行推理,并将结果可视化。 - 结果可视化: 展示了推理结果的图像和视频可视化效果,通过长方体坐标展示了检测到的3D目标位置。
需要源代码的请大家关注收藏后然后评论区评论,或者私信我噢!
以往干货链接:
SH?Termius?一篇文章教你使用远程服务器训练!文章来源:https://www.toymoban.com/news/detail-856210.html
Jetson nano开机自启动python程序文章来源地址https://www.toymoban.com/news/detail-856210.html
到了这里,关于基于mmdetection3d的单目3D目标检测模型,效果远超CenterNet3D的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!