负样本\正样本对目标检测算法的性能影响

这篇具有很好参考价值的文章主要介绍了负样本\正样本对目标检测算法的性能影响。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近,在做行人检测任务时,对数据进行清洗后,存在一些空标签的样本,所以,想考虑这些空标签的样本对模型的性能究竟有什么样的影响。

一、概念定义

负样本:在目标检测任务中,数据集中部分图片没有出现目标,这些图片通常被称为负样本。

正样本:指包含目标的图像。

背景:背景是指整个图像中不包含目标的区域,它与负样本不同。负样本是针对整个图片而言,背景是针对边界框而言。

二、思考

1. 目标检测任务中,数据集中部分图片没有出现目标 (负样本较多),剔除和不剔除会怎么影响模型性能呢?

在目标检测任务中,剔除没有出现目标的图片可能会对模型的性能产生影响。具体来说,如果数据集中有大量没有目标的图片,而这些图片不被剔除,可能会导致模型学习到错误的特征,并且无法正确识别出目标物体。eg,ImageNet中存在大量负样本,并且有一些目标的标注错误,但是大模型都会有纠错的能力,可以通过大量的学习来弥补这个问题,可参考:移除ImageNet标签错误,模型排名发生大变化

另一方面,如果剔除了这些没有目标的图片,可能会导致数据集的规模减小,从而可能会影响模型的泛化能力。模型的泛化能力是指模型在遇到新的、未见过的数据时,能够正确地进行目标检测的能力。如果数据集规模变小,模型就可能无法学习到足够多的特征,从而降低了模型的泛化能力。

因此,需要根据具体情况进行权衡和选择。如果数据集中没有目标的图片比例很大,可以考虑剔除这些图片。如果没有目标的图片比例比较小,可以将这些图片保留在数据集中,并使用其他方法(例如数据增强)来提高模型的泛化能力。

问题是,这个是比例大概是多少需要剔除。一般来说,负样本占总数据集的比例小可以保留,负样本占总数据集的比例大,需要进行剔除,但剔除存在数据规模减少,并不是很好的方案,最优的方案应该是采用正负样本均衡的方法。

详细分析如下:

(1) 确定没有目标的图片比例是否可以接受,需要根据具体的情况来决定。一般来说,没有目标的图片比例比较小通常指在整个数据集中,没有目标的图片所占比例小于 10%。这个比例并不是一个硬性的规定,而是需要根据具体情况来考虑。如果数据集规模较小,或者目标物体比较难以识别,可能会有更高的没有目标的图片比例。

另外,即使没有目标的图片比例较小,也需要注意这些图片对模型的影响。如果没有目标的图片中存在与目标物体相似的背景或者场景,这些图片仍然可以提供一些有用的信息。在这种情况下,保留这些图片可能会有助于提高模型的泛化能力。

总的来说,确定是否保留没有目标的图片需要综合考虑数据集规模、目标物体难度、没有目标图片的相似度等因素。最终的决定应该基于实验和实践的结果。

(2) 如果模型的应用场景与测试集中的场景有重合,且测试集中的图片数量足够大,可以考虑保留这些没有目标的图片。这样做的好处是可以更好地评估模型在现实场景中的表现。但是,如果测试集中没有目标的图片过多,可能会导致模型的性能评估出现偏差,因为模型只学习了识别有目标的图片,而没有学习如何识别没有目标的图片。如果数据集中没有目标的图片过多,可能会导致模型过度拟合目标物体,从而影响模型的性能。在这种情况下,可以考虑剔除一部分没有目标的图片,以减少模型过度拟合的风险。

另一方面,如果模型的应用场景不包括测试集中没有目标的情况,或者测试集中没有目标的图片数量太少,剔除这些图片也是可以的。这样可以减少模型的学习难度,使模型更专注于识别目标物体。但是,需要注意的是,剔除这些图片可能会导致评估结果偏差,因为模型没有学习到如何识别没有目标的图片。

综上所述,是否剔除测试集中没有目标的图片,需要根据具体的场景和需求来决定,需要权衡不同的因素来做出决策。

2. 剔除测试集的负样本,评价指标变差。

理论分析:在目标检测任务中,剔除测试集中没有目标的样本后,测试指标反而变差,可能是因为剔除了这些样本后,测试集的分布与实际场景的分布存在差异,从而导致模型的泛化性能下降。

具体地说,如果测试集中没有目标的样本过多,而实际场景中的图片中又有很多没有目标的情况,那么剔除测试集中没有目标的样本会导致测试集的分布与实际场景的分布不一致,从而使模型在实际场景中的性能下降。

此外,剔除测试集中没有目标的样本还可能导致模型在测试集上的表现出现偏差。因为模型在训练过程中并没有学习到如何处理没有目标的情况,如果测试集中没有目标的样本被剔除,模型就无法被正确地评估在这些情况下的表现。

因此,如果测试集中没有目标的样本过多,我们应该考虑如何解决模型在这些情况下的性能问题,而不是剔除这些样本。例如,可以考虑使用数据增强方法,增加一些没有目标的样本,以使模型能够更好地学习到这些情况下的特征。

指标分析:通过对评价指标进行梳理,发现负样本的剔除会改变图片总数,涉及到一些和图片总数的计算指标会受到影响,比如FPPI指标。

三、正负样本平衡的方法 

(1) 重采样(Resampling):通过增加少数类样本或者减少多数类样本的方式来平衡正负样本的数量。具体地,可以采用欠采样(Undersampling)和过采样(Oversampling)等方法。

(2) 类别加权(Class Weighting):将不同类别的样本赋予不同的权重,使得模型在训练时更关注罕见类别的学习。具体地,可以采用样本加权(Sample Weighting)和损失函数加权(Loss Weighting)等方法。

(3) 数据增强(Data Augmentation):通过对训练集中的样本进行各种变换(例如旋转、翻转、缩放、裁剪等)来扩充样本集,从而平衡正负样本的数量和类别分布。具体地,可以采用随机缩放(Random Scaling)、随机裁剪(Random Cropping)和随机旋转(Random Rotation)等方法。

(4) 生成式对抗网络(Generative Adversarial Networks,GANs):通过生成一些虚拟的少数类别样本,使得模型可以更好地学习少数类别的特征。具体地,可以采用条件生成对抗网络(Conditional GANs)等方法。

(5) 算法层面调整:对于一些算法,如Faster R-CNN等,可以调整RPN网络的阈值、nms的阈值等超参数来平衡正负样本。

重点关注方法角度,这里展示的不太全,可以先简单看看(后续更新持续更新):

Oksuz等人在一篇综述文章中详细介绍了目标检测中不平衡问题,并将其分为四类:空间不平衡、目标不平衡、类别不平衡和尺度不平衡。空间不平衡和目标不平衡主要关注边界框的空间属性和多个损失函数,而类别不平衡则是由于训练数据中不同类别之间的显著不平等所导致的。Park, K., Kim, S., Sohn, K.: Uni ed multi-spectral pedestrian detection based on probabilistic fusion networks. Pattern Recognition 80, 143{155 (2018)

RetinaNet通过调整标准交叉熵损失来解决类别不平衡问题,以避免大量简单的负样本压倒检测器。

AP-Loss和DR Loss也提供了设计损失函数来解决类别不平衡问题的思路。Chen, K., Li, J., Lin, W., See, J., Wang, J., Duan, L., Chen, Z., He, C., Zou, J.:Towards accurate one-stage object detection with ap-loss. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 5119{5127 (2019)

尺度不平衡发生在网络中某些大小的目标边界框被过度表示的情况下。例如,SSD从不同层的特征中进行独立预测。由于不同层的信息抽象程度不同,因此直接从不同层的骨干网中进行预测是不可靠的。FPN利用额外的自上而下的路径,以便从不同尺度的特征中获得平衡的特征混合。FPN可以通过整合和完善金字塔特征映射来进一步增强。

除了平衡不同层级之外,两流网络中应该平衡整合不同模态的特征。换句话说,应该充分整合和表示不同模态的特征,以实现平衡的模态优化训练。

个人的拙劣理解,大家可以评论区讨论交流。文章来源地址https://www.toymoban.com/news/detail-660686.html

到了这里,关于负样本\正样本对目标检测算法的性能影响的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 目标检测YOLO实战应用案例100讲-面向小样本的目标检测技术研究与应用

    目录 面向小样本的目标检测技术研究 传统目标检测算法  二阶段的目标检测 

    2024年02月13日
    浏览(46)
  • 小样本目标检测综述__刘浩宇(导航与控制2021)论文阅读

    早期采用了大量标注样本回归候选框的位置,但后来 目标集和训练集数据分布不同导致检测效果下降 。 对于没有大量样本支持的小样本检测应用就需要使用 先验知识 来弥补样本的不足。 可以分为三类: 数据域 通过先验知识来做数据增强,以弥补样本不足的问题,解决模

    2024年02月12日
    浏览(52)
  • FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

    标题:基于卷积和注意力机制的小样本目标检测 作者:郭永红,牛海涛,史超,郭铖 郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002 典型的FSOD使用Fast R-CNN作为基本的检测框架 本文亮点:引入

    2024年01月24日
    浏览(53)
  • 【python脚本】python实现:目标检测裁剪图片样本,根据类标签文件进行裁剪保存

    我在进行目标检测时候,比如红绿灯检测,目标区域很小,样本杂乱。 想要筛选错误样本的话,很困难。可以把目标区域裁剪出来。人大脑处理对于这样的异己比较敏感。样本量较少的话可以自己筛一筛。样本量较大的话,可以训练一个分类模型帮你筛一下。 它就可以实现

    2024年02月15日
    浏览(41)
  • 目标检测算法——YOLOv5/YOLOv7改进之结合MobileOne结构(高性能骨干|仅需1ms)

    1.MobileOne: 移动端仅需1ms的高性能骨干! 2.MobileOne block网络模型: 3.源代码 关于YOLOv5/v7改进方法可关注并留言博主的CSDN 论文题目: An Improved One millisecond Mobile Backbone 论文地址:http://An Improved One millisecond Mobile Backbone 一般用于移动设备的高效神经网络骨干通常针对 FLOP 或参数计

    2024年02月06日
    浏览(55)
  • 【计算机视觉】小目标检测研究进展:数据集介绍及性能评估(详细讲解)

    在常规目标检测数据集上,现有研究对大/中尺寸的目标已取得了不错的成效。但是,小目标的检测仍然是不尽人意的,一方面是由小目标自身特性所导致的的,另一方面是因为常规目标检测数据集中小目标存在占比少、分布不均匀等问题。接下来本文将按照时间顺序简要介绍

    2024年01月22日
    浏览(44)
  • 经典目标检测YOLO系列(二)YOLOV2的复现(2)正样本的匹配、损失函数的实现及模型训练

    我们在之前实现YOLOv1的基础上,加入了先验框机制,快速的实现了YOLOv2的网络架构,并且实现了前向推理过程。 经典目标检测YOLO系列(二)YOLOV2的复现(1)总体网络架构及前向推理过程 如前所述,我们使用基于先验框的正样本匹配策略。 由于每个网格只输出一个边界框,因此在

    2024年01月19日
    浏览(62)
  • 遥感图像中的小样本目标检测:Few-shot Object Detection on Remote SensingImages

    论文下载:https://arxiv.org/pdf/2006.07826v2.pdf        在本文中,我们处理遥感图像上的目标检测问题。以前的方法已经发展了许多基于深度卷积的遥感图像目标检测方法,在检测性能和效率方面取得了显著的成就。然而,目前基于CNN的方法大多需要大量带注释的样本来训练深层

    2024年02月03日
    浏览(44)
  • 目标检测算法——农业作物开源数据集汇总(收藏)

    下载链接:http://suo.nz/33oB1C 数据集(作物图像)包含每种农业作物(玉米、小麦、黄麻、水稻和甘蔗)的 40 多张图像 数据集(kag2)包含每类作物图像的 159 多张增强图像。增强包括水平翻转、旋转、水平平移、垂直平移。 下载链接:http://suo.nz/3aZ0xg 收集了部分被秋粘虫等害

    2024年02月04日
    浏览(93)
  • 目标检测算法——垃圾分类数据集汇总(附下载链接)

    一、Kaggle 垃圾分类图片数据集 二、垃圾分类数据集 三、塑料-纸张-垃圾袋合成图像数据集 四、垃圾溢出数据集 关于YOLO算法改进及论文投稿可关注并留言博主的CSDN/QQ 一起交流!互相学习!共同进步! 数据集下载链接:https://www.cvmart.net/dataSets 该数据集是图片数据,分为训练

    2023年04月24日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包