无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

这篇具有很好参考价值的文章主要介绍了无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

论文url:https://arxiv.org/abs/2305.12457

论文简述

该论文提出了一种名为Unsupervised Multi-view Pedestrian Detection (UMPD)的新方法,旨在通过多视角视频监控数据准确地定位行人,而无需依赖于人工标注的视频帧和相机视角。

总体框架图


当我第一时间看到这个框架图,顿时感觉头发都掉了好几根,他这个设计确实有点复杂,并且和之前看的多视角检测方法很不一样,可能有些理解偏差,欢迎指正。

输入

  • 不同视角下多个摄像头的同步图像数据

语义感知迭代分割 Semantic-aware Iterative Segmentation(SIS)

PS: 该模块所在部分就是上图绿色框部分,该模块主要分为两个部分,一个是PCA主成分迭代分析生成前景掩码部分,一个是零样本分类视觉-语言模型CLIP部分生成 $ {S}^{human} $ 语意掩码选择PCA的前景掩码部分。

  • PCA主成分迭代分析:

    • 首先, 多个摄像头的同步图像数据通过无监督模型提取预训练特征,将所有图像的预训练特征向量集合并成一个更大的特征矩阵,在这个矩阵中,每一行代表一个图像的特征向量,每一列代表特征向量中的一个维度。(猜测具体操作应该是模型中的最后一个卷积层的特征图进行展平操作,变成一个一维特征向量。将所有的一维特征向量堆叠起来就形成了一个二维的特征矩阵。)
    • 然后将这个二维的特征矩阵进行PCA降维操作,PCA的目的是找到一个新的低维特征空间,其中第一个主成分捕捉原始高维特征中的最大方差。通过PCA,数据被投影到第一个主成分(即PCA向量)上,生成一个新的一维特征表示。这个一维表示是每个原始高维特征向量在PCA方向上的投影长度。
    • 根据一维PCA值为每个视角生成初步的行人掩膜(即二值图像,设定一个阈值,其中行人前景(大于阈值)被标记为1,背景(小于等于阈值)为0)。
  • 零样本分类视觉-语言模型CLIP:
    CLIP拥有两个模块

    • CLIP Visual Encoder
      输入的是多个摄像头的同步图像数据
      输出是视觉特征图
    • CLIP Text Encoder
      输入是与行人相关的文本描述
      生成语言特征向量
    • 将语言特征向量与视觉特征图进行余弦相似度计算,得出图 $ {S}^{human} $
  • 两模块结合操作:

    • 将CLIP生成的 $ {S}^{human} $ 与PCA生成的前景掩码进行重叠,来判断哪些前景掩码属于行人前景,然后将这些前景掩码继续用PCA进行迭代以及CLIP判断直到规定的迭代次数将前景掩码输入到下一部分作为伪标签。

几何感知体积探测器 Geometric-aware Volume-based Detector(GVD)

PS: 该模块所在部分就是第一张图红色框部分

  • 2D特征提取:每个视角拍摄的图都用ResNet Visual Encoder进行特征提取。
  • 2D到3D的几何投影:提取的特征随后被映射到3D空间中。这一步骤涉及到使用相机的内参和外参矩阵,将2D图像中的像素点映射到3D空间中的体素上。这个过程基于针孔相机模型,通过几何变换将2D图像中的信息转换为3D体积的一部分。
  • 3D体积融合:由于每个视角都会生成一个3D体积,GVD模块需要将这些体积融合成一个统一的3D体积。这通常通过一个Soft-Max Volume Feat. Fusion函数来实现,该函数可以对来自不同视角的3D体积进行加权和融合。
  • 3D卷积网络解码器:融合后的3D体积被送入一个3D卷积网络解码器,该解码器负责预测每个体素的密度和颜色。这个解码器通常由一系列3D卷积层组成,能够学习从2D图像到3D体积的复杂映射关系。(论文中没有给出该解码器具体是怎么设计的)
  • 3D渲染为2D:作者用PyTorch3D可微分渲染框架将预测的3D密度 $ {D} $ 渲染为2D掩码 \(\tilde{M}\) ,并且将预测的3D颜色 $ {C} $ 渲染为2D图像 \(\tilde{I}\) , $ {M} $ 为SIS输出的前景掩码, $ {I} $ 论文中说是根据前景掩码得出的颜色图像(猜测应该是前景图像中为1的部分才保留原图颜色)。

垂直感知BEV正则化 Vertical-aware BEV Regularization

  • 通过GVD得出的3D体积中的密度信息沿着Z轴(垂直轴)进行最大值投影,以生成BEV(Bird Eye View)表示。这样可以得到一个二维平面图,其中高密度区域表示行人的位置,得出结果。
  • 并且为了应对出现的行人躺着或者斜着的情况(在大多数情况下,行人的姿态是接近垂直的),论文提出了Vertical-aware BEV Regularization(VBR)方法。通过计算 $ {L}_{VBR} $ 损失函数来优化这个影响。
  • 损失函数

    运用了Huber Loss

效果图

后记

作者最后应该还做了些后处理,但是论文中没有提及具体内容。该篇内容细节很多,公式变换复杂,有些细节我做了一定的省略,建议结合着论文原文来看。
ps:终于干完这篇了,鼠鼠我要逝了🥵文章来源地址https://www.toymoban.com/news/detail-847949.html

到了这里,关于无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《论文阅读21》Equivariant Multi-View Networks

    研究领域:计算机视觉 | 多视角数据处理中实现 等变性 论文:Equivariant Multi-View Networks ICCV 2019 论文链接 视频链接 在计算机视觉中,模型在不同视角下对数据(例如,点云、图像等)对数据的变化具有一定的响应性。为了使模型能够更好地适应这种变化,不是仅仅对某个特定

    2024年02月10日
    浏览(48)
  • PETR: Position Embedding Transformation for Multi-View 3D Object Detection

    PETR: Position Embedding Transformation for Multi-View 3D Object Detection 旷视 DETR3D 中 2D-3D过程 存在的问题: 预测的参考点坐标可能不准确,在采样图片特征时可能拿不到对应的特征。 只有参考点 投影位置的图像特征被使用,无法学到全局的特征。 采样图像特征的过程过于复杂,难于应用

    2024年02月16日
    浏览(52)
  • BMR论文阅读笔记(Bootstrapping Multi-view Representations for Fake News Detection)

    论文标题:Bootstrapping Multi-view Representations for Fake News Detection 论文作者:Qichao Ying, Xiaoxiao Hu, Yangming Zhou, Zhenxing Qian, Dan Zeng, Shiming Ge 论文来源:AAAI 2023,Paper 代码来源:Code 基于深度学习的多模态 虚假新闻检测 (Fake News Detection, FND)一直饱受关注,本文发现以往关于多模态FND的研

    2024年02月05日
    浏览(55)
  • 【论文简述】Multi-View Stereo Representation Revisit: Region-Aware MVSNet(CVPR 2023)

    1. 第一作者: Yisu Zhang 2. 发表年份: 2023 3. 发表期刊: CVPR 4. : MVS、3D重建、符号距离场 5. 探索动机: 像素深度估计仍存在两个棘手的缺陷。一是无纹理区域的估计置信度较低。二是物体边界附近的许多异常值。这主要是因为表面通常被视为一组不相关的采样点,而

    2024年02月10日
    浏览(52)
  • 论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    1.简介 在3D人体姿态估计中存在遮挡和模糊问题,使用多相机可能会缓解这些困难,因为不同的视角可以补偿这些遮挡并用于相互一致性。目前的3D人体姿态估计中大多数都是单视角的,有一部分是多视角的,但是他们的方法依赖于相机之间的相对位置,这要用到相机的外参。

    2024年02月04日
    浏览(51)
  • 【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo

    今天读一篇WACV 2024上MVS的文章,作者来自格拉茨技术大学。 文章链接:点击前往 为了减少在深度图融合点云参数调整上的实验负担,可以学习基于entropy的filtering mask进而根据两个视角的几何验证来重建三维模型。并且,提出的网络计算开销不大,训练只需要6GB,测试时,3

    2024年01月21日
    浏览(43)
  • 论文阅读1--A Survey on Incomplete Multi-view Clustering(不完全多视图聚类的调查)阅读笔记

    目录 写在前面(知识补充) 0.Abstract 1.Introduction 2. FUNDAMENTALS AND PRELIMINARY CONCEPTS 3. MATRIX FACTORIZATION BASED IMC(基于矩阵分解的IMC) 4. KERNEL LEARNING BASED IMC(基于内核学习的IMC) 5.GRAPH LEARNING BASED IMC(基于图学习的IMC) 6.DEEP LEARNING BASED IMC(基于深度学习的IMC) 7. EXPERIMENTS(实验部分)

    2024年02月05日
    浏览(59)
  • DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。 长久以来 3D目标检测是一个挑战,并

    2024年02月16日
    浏览(46)
  • BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion

    BEV方法最近在多视图3D检测任务中取得了很大进展。Sparse4D通过sparsely sampling和fusing spatial-temporal features 对anchor box进行迭代改进: (1)Sparse 4D Sampling: 对于每个3D anchor,我们分配多个4D关键点,然后将其投影到多视图/尺度/时间戳图像特征,用来采样相应的特征。 (2)Hierarc

    2024年04月13日
    浏览(48)
  • 2023-一种无监督目标检测和实例分割方法【Cut and Learn for Unsupervised Object Detection and Instance Segmentation】

    Facebook 目标检测和分割依赖海量数据的标注,模型训练耗时最大的是数据采集和标注过程,无监督学习在目标检测和分割中的应用较少。 这篇文章提出提出了Cut-and-LEaRn(CutLER),一种用于训练无监督对象检测和分割模型的简单方法。利用自监督模型的特性在没有监督的情况

    2024年02月06日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包