【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读

这篇具有很好参考价值的文章主要介绍了【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文地址:https://arxiv.org/pdf/1910.13302.pdf

代码地址:GitHub - ZFTurbo/Weighted-Boxes-Fusion: Set of methods to ensemble boxes from different object detection models, including implementation of "Weighted boxes fusion (WBF)" method.

1. NMS(Non-Maximum Suppression)

原理

(1)将所有获得的候选框按得分进行降序排列;

(2)选取得分最高的候选框作为基准,分别计算所有剩余候选框与该基准框的IoU(交并比),将IoU高于阈值的候选框进行剔除;

(3)在保留的非基准候选框中,重复第(2)步,直到所有的候选框都被当作基准框。最终剩下的候选框即为预测结果。

【缺点】

(1)需要手动设置阈值,且阈值会直接对结果产生影响;

(2)难以区分多个重叠度较高的目标。

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
当IoU阈值为0.5时,只有一个目标框会被保留,但实际存在多个目标

2. Soft-NMS

【原理】

NMS算法比较强硬,超过阈值就剔除,低于阈值直接保留。所以当阈值较高时,容易造成误检,抑制效果不明显;当阈值较低时,容易产生漏检。因此就出现了soft-nms。

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
soft-nms伪代码,相对NMS增加了得分惩罚

soft-nms通过IoU的值对候选框的得分进行惩罚衰减,不是直接去除候选框。衰减的策略有两种,一种是使用1-IoU与得分的乘积作为衰减后的值,第二种是高斯惩罚函数。

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
NMS的得分函数,IoU高于阈值直接将得分设置为0
【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
soft-nms的第一种衰减策略,IoU大于阈值的目标得分会收到惩罚
【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
soft-nms的高斯惩罚函数

【缺点】最终还是删除了部分预测框的结果,不能充分利用所有候选框的信息。

3. Weighted boxes fusion

【原理】假设有N个模型的输出结果:

(1)将所有模型的预测结果添加到列表B中,并对B按置信度得分C进行排序;

(2)声明一个空列表L和F。其中,L用来存放边界框簇,每个位置可以存在多个边界框;F用来存放融合后的边界框,每个位置只能有一个边界框。F中每个位置的边界框是L中对应位置边界框簇融合后的结果。

(3)循环执行:逐个遍历B中的预测结果,在列表F中找到与之相匹配的框(IoU大于指定阈值,这里设置的阈值是0.55)。

(4)如果F中没有与之匹配的框,则将B中的这个框添加到列表L和F中作为一个新的簇,然后处理B中的下一个框。

(5)如果F中的第pos个框与之匹配,那么将B中的这个框添加到列表L中的第pos个簇中。

(6)用列表L[pos]的所有T个边界框重新计算F[pos]的边界框坐标和置信度得分。置信度得分C是所有T个边界框置信度得分的均值,边界框坐标由原始坐标与置信度得分加权计算得到。

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读

 【简单画了个示例】

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
匹配第一个元素a

 文章来源地址https://www.toymoban.com/news/detail-495105.html

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
匹配第二个元素b

 

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
匹配第三个元素c

 

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
匹配第四个元素d

 

【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读
匹配第五个元素e

到了这里,关于【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图像融合论文阅读:IFCNN: A general image fusion framework based on convolutional neural network

    @article{zhang2020ifcnn, title={IFCNN: A general image fusion framework based on convolutional neural network}, author={Zhang, Yu and Liu, Yu and Sun, Peng and Yan, Han and Zhao, Xiaolin and Zhang, Li}, journal={Information Fusion}, volume={54}, pages={99–118}, year={2020}, publisher={Elsevier} } 论文级别:SCI A1 影响因子:18.6 📖 该论文是【

    2024年02月03日
    浏览(45)
  • 图像融合论文阅读:SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images

    @article{wang2022swinfuse, title={SwinFuse: A residual swin transformer fusion network for infrared and visible images}, author={Wang, Zhishe and Chen, Yanlin and Shao, Wenyu and Li, Hui and Zhang, Lei}, journal={IEEE Transactions on Instrumentation and Measurement}, volume={71}, pages={1–12}, year={2022}, publisher={IEEE} } 论文级别:SCI A2/Q1 影响因

    2024年04月23日
    浏览(44)
  • 图像融合论文阅读:LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Imag

    @ARTICLE{10105495, author={Li, Hui and Xu, Tianyang and Wu, Xiao-Jun and Lu, Jiwen and Kittler, Josef}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, title={LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images}, year={2023}, volume={45}, number={9}, pages={11040-11052}, doi={10.1109/TPAMI.2

    2024年01月21日
    浏览(49)
  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(49)
  • 论文阅读 Improved Appliance Classification in NILM Using Weighted RCNN (recurrence graph)

    Publisher: Energies Publising Date: 2020 MOTIVATION OF READING: 1. zero-crossing method for data preprocessing. 2.  recurrence graph (RG). Probelm statement:  the performance of V–I-based approaches is still unsatisfactory as it is still not distinctive enough to recognize devices that fall into the same category. Methodology:  an appliance recognition

    2024年01月22日
    浏览(30)
  • 【图像融合】Dif-Fusion:基于扩散模型的红外/可见图像融合方法

    颜色在人类的视觉感知中起着重要的作用,反映了物体的光谱。然而, 现有的红外和可见光图像融合方法很少探索如何直接处理多光谱/通道数据,并实现较高的彩色保真度 。本文提出了一种 利用扩散模型diffusion来生成多通道输入数据的分布 ,提高了多源信息聚合的能力和

    2024年02月09日
    浏览(79)
  • 论文阅读 Stepwise Feature Fusion: Local Guides Global

    我在找论文时发现,把自己的分割模型命名为ssformer的有两个:,一个论文SSformer: A Lightweight Transformer for Semantic Segmentation中提出的一种轻量级Transformer模型,结构如下 这个结构很简单,就是在用MLP层处理一下不同层的swin transformer block特征,然后融合。 这个没什么太多好说的

    2024年03月16日
    浏览(67)
  • CLIP原理解读——大模型论文阅读笔记一

    通过自然语言处理来的一些监督信号,可以去训练一个迁移效果很好的视觉模型。 论文的作者团队收集了一个超级大的图像文本配对的数据集,有400 million个图片文本的配对, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一种从自然语言监督中学习

    2024年02月08日
    浏览(42)
  • MiniGPT-4原理解读——大模型论文阅读笔记三

    论文:https://arxiv.org/pdf/2304.10592v1.pdf 代码:https://github.com/vision-cair/minigpt-4 GPT-4展示了非凡的多模态能力,比如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更

    2024年02月11日
    浏览(35)
  • BLIP2原理解读——大模型论文阅读笔记二

    论文:https://arxiv.org/abs/2301.12597 代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2 端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包