一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

这篇具有很好参考价值的文章主要介绍了一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

论文url: https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html

论文简述

论文提出了一种用于多视角行人检测的深度学习模型,旨在提高模型在不同摄像机数量、不同摄像机配置和新场景下的泛化能力。

总体框架图

输入

$ {N} $ 个校准的RGB摄像头图像,图像尺寸为( 3 , $ {H}{i} $ , $ {W} $),其中 $ {H}{i} $ 和 $ {W} $ 分别代表图像的高度和宽度。文章来源地址https://www.toymoban.com/news/detail-846703.html

DropView Regularization

  • 操作:在训练过程中,对于每批次视角样本,随机选择一个或多个视角进行丢弃,即不使用这些视角图进行训练。
  • 作用:迫使模型学习到不依赖于任何单一视角的特征表示,这一操作也可以看作数据增强,模拟了在实际应用中可能遇到的摄像头失效或视角遮挡等情况,从而使模型在面对不完整数据时仍能保持性能。提高了鲁棒性,增强了泛化能力。

特征提取模块(Feature Extraction)

  • 操作:使用ResNet18作为特征提取的主干网络,并将最后三层的步长大卷积替换为空洞卷积(dilated convolutions),以获得更高空间分辨率的特征图。
  • 输出: $ {N} $ 个摄像头视图的特征,尺寸为( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ ),其中 $ {C} $ 是通道数(特征数), $ {H}{f} $ 和 $ {W} $ 是提取的特征图的高度和宽度。

透视变换(Perspective Transformation)

  • 对于每个视角的特征图,使用透视变换将其从相机坐标系映射到世界坐标系中的地面平面(鸟瞰图)上。
  • 透视变换考虑了相机的内参 $ {K} $ 和外参 $ {[R|t]} $,其中内参包括焦距和主点坐标,外参包括旋转和平移向量。
  • 变换过程中,定义一个地面平面,通常假设为 $ {Z=0} $ 的平面,即 $ {W = (X, Y, 0, 1)^T} $ 。每个像素点 $ {(x, y)} $ 从图像坐标系通过以下变换映射到地面平面坐标系:

    其中 $ {s} $ 是缩放因子, $ {P} $ 是透视变换矩阵,$ {(X, Y, Z)} $ 是世界坐标系中的点。
  • 输出:投影到地面平面上的 $ {N} $ 个特征图,尺寸为 $ {(N, C, H_{g}, W_{g})} $ ,其中 $ {H}{g} $ 和 $ {W} $ 是地面平面网格的高度和宽度。

平均池化(Average Pooling)

  • 对所有视图的投影特征图进行平均池化,得到最终的鸟瞰图特征表示 $ {F} $ ,尺寸为 $ {(C, H_{g}, W_{g})} $ 。
  • 特点:在多视角检测中,摄像头的物理排列可能会变化,但模型应该能够独立于特定的摄像头排列来检测行人。平均池化操作是排列不变的,这意味着无论摄像头的输入顺序如何,模型的输出都是一致的,从而提高了模型的泛化能力。

占用图预测(Occupancy Map Prediction)

  • 使用三层空洞卷积层去预测行人占用概率图,输出尺寸为 $ {(H_{g}, W_{g})} $ 。(参考MVDet)

损失函数设计

  • 输入:模型输出的概率占用图 $ {(p)} $ 和真实标注的占用图 $ {(g)} $ 。
  • 结合KL散度(KLDiv)和皮尔逊交叉相关系数(CC)作为损失函数,公式如下:

    $ {σ(p,g)} $ 是 $ {p,g} $ 的协方差, $ {σ(p)} $ 是 $ {p} $ 的标准差, $ {σ(g)} $ 是 $ {g} $ 的标准差。

后记

  • 有意思的是该作者不仅仅使用了MultiViewX和WildTrack这两个普遍的数据集,并且还用GTAV里面的拍照模式采样了一些样本。

到了这里,关于一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习实战(四):行人跟踪与摔倒检测报警

    转载于集智书童   本项目的目的是为了给大家提供跟多的实战思路,抛砖引玉为大家提供一个案例,也希望读者可以根据该方法实现更多的思想与想法,也希望读者可以改进该项目种提到的方法,比如改进其中的行人检测器、跟踪方法、行为识别算法等等。 (1)图卷积网

    2024年01月22日
    浏览(26)
  • 基于opencv深度学习,交通目标检测,行人车辆检测,人流统计,交通流量检测

    文章目录 0 前言+ 1. 目标检测概况+ 1.1 什么是目标检测?+ 1.2 发展阶段 2. 行人检测+ 2.1 行人检测简介+ 2.2 行人检测技术难点+ 2.3 行人检测实现效果+ 2.4 关键代码-训练过程 最后 设计项目案例演示地址: 链接 毕业设计代做一对一指导项目方向涵盖: 1.1 什么是目标检测? 目标检

    2024年02月04日
    浏览(47)
  • 大数据毕设分享 深度学习行人口罩佩戴检测

    #### 简介 2020新冠爆发以来,疫情牵动着全国人民的心,一线医护工作者在最前线抗击疫情的同时,我们也可以看到很多科技行业和人工智能领域的从业者,也在贡献着他们的力量。近些天来,旷视、商汤、海康、百度都多家科技公司研发出了带有AI人脸检测算法的红外测温、

    2024年03月10日
    浏览(29)
  • 深度学习之基于YoloV8的行人跌倒目标检测系统

    欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。    世界老龄化趋势日益严重,现代化的生活习惯又使得大多数老人独居,统计数据表明,跌倒是老年人的主要致伤原因。利用先进的计算机技术、传感器技术和图像信息处理技术实现人体跌倒

    2024年02月08日
    浏览(43)
  • 行人车辆检测与计数系统(Python+YOLOv5深度学习模型+清新界面)

    摘要:行人车辆检测与计数系统用于交通路口行人及车辆检测计数,道路人流量、车流量智能监测,方便记录、显示、查看和保存检测结果。本文详细介绍行人车辆检测,在介绍算法原理的同时,给出 P y t h o n 的实现代码、 P y Q t 的UI界面以及训练数据集。在界面中可以选择

    2024年02月01日
    浏览(39)
  • 基于深度学习的高精度Caltech行人检测系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度Caltech数据集行人检测识别系统可用于日常生活中或野外来检测与定位行人目标,利用深度学习算法可实现图片、视频、摄像头等方式的行人目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检测模型训练数据

    2024年02月15日
    浏览(33)
  • 基于深度学习的高精度红外行人车辆检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度红外行人车辆检测识别系统可用于日常生活中或野外来检测与定位红外行人车辆目标,利用深度学习算法可实现图片、视频、摄像头等方式的红外行人车辆目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检

    2024年02月08日
    浏览(33)
  • 一种提升SQL改写效率的方法

    本文分享自天翼云开发者社区《一种提升SQL改写效率的方法》,作者:唐****律 一、 背景 SQL改写是数据库产品中使用比较频繁的一个技术,在大多数产品中的调用频率也非常高,通常对性能的需求需要接近对应数据库产品的上限。例如在天翼云关系型数据库中的Mysql语法兼容组

    2024年02月08日
    浏览(44)
  • OpenCV、Dlib 和深度学习中的各种人脸检测方法与性能比较--包含C++ 和 Python 代码实现

    文末附基于Python和C++两种方式实现的测试代码下载链接 在本教程中,我们将讨论 OpenCV、Dlib 和深度学习中的各种人脸检测方法,并对这些方法进行定量比较。我们将为以下面部检测器共享 C++ 和 Python 代码: OpenCV 中的 Haar 级联人脸检测器 OpenCV 中基于深度学习的人脸检测器。

    2024年02月10日
    浏览(35)
  • 基于YOLOv8深度学习的无人机视角地面物体检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测

    《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌ 更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍 感谢小伙伴们点赞、关注! 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】

    2024年03月21日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包