计算机视觉知识点(一)——交并比(IoU)及其若干改进

这篇具有很好参考价值的文章主要介绍了计算机视觉知识点(一)——交并比(IoU)及其若干改进。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

目标检测是一个常见的计算机视觉任务,在目标检测任务中,交并比作为评判检测框的标准具有很重要的意义,在实际的应用中,人们又对最初的IoU进行了诸多的改进。本文将对IoU以及他的改进形式的思路以及公式进行详细通俗的介绍。

IoU

IoU是最早的用于评价预测框与实际框差距的标准,并被用于设置关于预测框回归的损失函数,其思路就是计算预测框与实际框相交区域的面积以及相并区域的面积

假设我们是在这样一张图片上进行目标检测
计算机视觉知识点(一)——交并比(IoU)及其若干改进

那么我们令蓝框为真实框,绿框为预测框,以这个图片的人脸检测为例介绍IoU

公式及示意图

I o U = T ∩ P T ∪ P , 其中 T 为实际框, P 为预测框 IoU=\frac{T \cap P}{T \cup P},其中T为实际框,P为预测框 IoU=TPTP,其中T为实际框,P为预测框

通俗来看
计算机视觉知识点(一)——交并比(IoU)及其若干改进
从直观上讲,就如上图,我们假设蓝框是真实框,绿框为预测框,上下红色阴影部分的面积之比就是IoU

示意图
计算机视觉知识点(一)——交并比(IoU)及其若干改进

IoU Loss

IoU越大说明真实框与预测框的重合度越高,即越好,所以我们可以使用IoU重建损失函数,一般有两种方式
I o U   L o s s = 1 − I o U 或 I o U   L o s s = − l n I o U IoU \space Loss =1-IoU或IoU\space Loss=-lnIoU IoU Loss=1IoUIoU Loss=lnIoU

缺点

失效情况我们首先来看图
计算机视觉知识点(一)——交并比(IoU)及其若干改进
如果真实框与预测框没有重合区域,就会出现这样的情况
计算机视觉知识点(一)——交并比(IoU)及其若干改进
这种情况并不是少数,因为在模型训练初期,模型的参数趋近于混乱,所以基本上预测框和乱标的没什么太大差别,如果真实框与预测框没有相重合,拟合会较为困难,因为所有的没有重合的损失值都为1,并且没有指明梯度下降的合理方向。他的问题是只考虑了真实框与预测框的相交情况,并没有考虑框的位置关系

GIoU Loss

公式及示意图

G I o U   L o s s = 1 − I o U + ∣ C − T ∪ P ∣ ∣ C ∣ ,其中 T 为真实框, P 为预测框, C 为两个框的最小边界 GIoU\space Loss=1-IoU+\frac{|C-T \cup P|}{|C|},其中T为真实框,P为预测框,C为两个框的最小边界 GIoU Loss=1IoU+CCTP,其中T为真实框,P为预测框,C为两个框的最小边界
计算机视觉知识点(一)——交并比(IoU)及其若干改进
如果是上述不相交的情况
计算机视觉知识点(一)——交并比(IoU)及其若干改进
此时虽然1-IoU仍然为1,但是加入的一项会使得两个不相交的框距离越远损失越大,这样可以通过新加入的这一项继续进行梯度下降,这里的GIoU Loss可以大于1

缺点

当一个框被另一个框框住的时候,被框住的框无论在哪个位置,得出的GIoU Loss的值都是完全相同的,这种情况下又会影响梯度下降的方向
计算机视觉知识点(一)——交并比(IoU)及其若干改进
计算机视觉知识点(一)——交并比(IoU)及其若干改进
在这种情况下,绿框在蓝框里面,无论绿框如何移动,只要它还在蓝框内部,他的损失值就不变,显然这也是不利于框的拟合的,为了解决这种情况,可以采用DIoU

DIoU

公式及示意图

D I o U   L o s s = 1 − I o U + ρ 2 ( c T , c P ) d 2 其中 ρ 2 ( c T , c P ) 是真实框中心 ( c T ) 与预测框中心 ( c P ) 的欧氏距离 d 2 是两框对角线距离的平方 DIoU \space Loss=1-IoU+\frac{\rho^2(cT,cP)}{d^2} \\其中\rho^2(cT,cP)是真实框中心(cT)与预测框中心(cP)的欧氏距离 \\ d^2是两框对角线距离的平方 DIoU Loss=1IoU+d2ρ2(cT,cP)其中ρ2(cT,cP)是真实框中心(cT)与预测框中心(cP)的欧氏距离d2是两框对角线距离的平方
计算机视觉知识点(一)——交并比(IoU)及其若干改进
使用DIoU时,不仅可以解决框不相交的问题,又解决了框在内部情况下遇到的问题,此时我们考虑了框的重合度和中心点的距离,还只剩下高宽比这种评价指标。如果深入理解DIoU可以发现在DIoU中,通过IoU和中心距离比的协调,高宽比实际上已经隐含在里边了,不过为了更加容易收敛,仍然可以在多考虑高宽比这一条件并加到损失函数中去

CIoU

这个损失函数画图并不是很好表示,所以只对公式进行讲解,如果理解不了也可以使用DIoU,DIoU也已经达到了很好的效果了
C I o U   L o s s = 1 − I o U + ρ 2 ( c T , c P ) d 2 + α v 其中 ρ 2 ( c T , c P ) 是真实框中心 ( c T ) 与预测框中心 ( c P ) 的欧氏距离 d 2 是两框对角线距离的平方 CIoU \space Loss=1-IoU+\frac{\rho^2(cT,cP)}{d^2}+ \alpha v \\其中\rho^2(cT,cP)是真实框中心(cT)与预测框中心(cP)的欧氏距离 \\ d^2是两框对角线距离的平方 CIoU Loss=1IoU+d2ρ2(cT,cP)+αv其中ρ2(cT,cP)是真实框中心(cT)与预测框中心(cP)的欧氏距离d2是两框对角线距离的平方
v = 4 π 2 ( a r c t a n w T h T − a r c t a n w P h P ) 2 v=\frac{4}{\pi ^2}(arctan\frac{wT}{hT}-arctan\frac{wP}{hP})^2 v=π24(arctanhTwTarctanhPwP)2
α = v 1 − I o U + v \alpha=\frac{v}{1-IoU}+v α=1IoUv+v
其中 w T , h T 是真实框的高宽, w P , h P 是预测框的高宽 其中wT,hT是真实框的高宽,wP,hP是预测框的高宽 其中wThT是真实框的高宽,wPhP是预测框的高宽文章来源地址https://www.toymoban.com/news/detail-496660.html

到了这里,关于计算机视觉知识点(一)——交并比(IoU)及其若干改进的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机组成原理期末考试知识点练习题

    全部内容包括1-8章,本篇是1-5章,后3章会在作者学习完新课后第一时间更新。(大概16号左右,请大家耐心等待) 目录 1. 计算机系统由     软件     、   硬件    两部分组成。 2. 计算机硬件系统由     存储器      、   运算器    、     控制器     、   输入设备

    2024年02月08日
    浏览(49)
  • 计算机三级嵌入式系统开发 知识点笔记

    目录为搜索词,详情看每一节后图片 思维导图已上传,点击这里下载 1.1 SoC IP核 1.2 1.2.1 ASCII GB2312 GB18030 UTF8 UTF16 超文本 字符形状两种描述方法 1.2.2 数字图像 1.2.3 音频 1.3 1.3.1 传输介质分为 有线通信 和 无线通信 数字通信的传输技术 1.3.3 IP地址 第一章图片 2.1 2.1.1 指令集分类

    2024年02月03日
    浏览(77)
  • 软考系统架构师知识点集锦七:计算机系统基础知识

    2.1.1计算机系统组成 2.1.2 存储系统          时间局部性 :指程序中的某条指令一旦执行,不久以后该指令可能再次执行,典型原因是由于程序中存在着大量的循环操作。          空间局部性 :指一旦程序访问了某个存储单元,不久以后,其附近的存储单元也将被访问,

    2024年02月06日
    浏览(36)
  • 【计算机组成原理】考研真题攻克与重点知识点剖析 - 第 1 篇:计算机系统概述

    本文基础知识部分来自于b站:分享笔记的好人儿的思维导图与王道考研课程,感谢大佬的开源精神,习题来自老师划的重点以及考研真题。 此前我尝试了完全使用Python或是结合大语言模型对考研真题进行数据清洗与可视化分析,本人技术有限,最终数据清洗结果不够理想,

    2024年02月07日
    浏览(50)
  • 计算机组成原理期末考试知识点练习题(补发)

    按时来更新了  不过由于作者这边的考试推迟 第八章I/O没有学到,不能全更了 不过我会把相应的练习题上传,对于第八章,大家可以给班里同学商量着做。 若是下周能学到,会第一时间补上。 6.控制器 7.总线 6.控制器 一、填空 1. 控制器 是整台计算机的指挥系统,它指挥和

    2024年01月18日
    浏览(53)
  • 计算机组成原理(4)-----Cache的原理及相关知识点

    目录 1.Cache的原理 2.Cache的性能 3.Cache和主存的映射方式  (1)全相联映射 (2)直接映射 (3)组相联映射 4.替换算法 (1)随机算法(RAND) (2)先进先出算法(FIFO) (3)近期最少使用(LRU) (4)最近不经常使用(LFU) 5.Cache写策略 (1)写命中 •写回法 •全写法 (2)写不命中 •写分配法 •非写分

    2024年02月21日
    浏览(42)
  • 【体系结构】山东大学计算机体系结构知识点清单

    涵盖所有考点,复习绝对高效,点赞+留邮箱获取pdf版本 1. 计算机系统的层次结构 语言实现的两种基本技术: 翻译:先把 N+1 级程序全部转换成 N 级程序后,再去执行新产生的 N 级程序,在执行过程中 N+1 级程序不再被访问。 解释:每当一条 N+1 级指令被译码后,就直接去执

    2024年02月11日
    浏览(48)
  • 【opencv】计算机视觉基础知识

    目录 前言 1、什么是计算机视觉 2、图片处理基础操作 2.1 图片处理:读入图像 2.2 图片处理:显示图像 2.3 图片处理:图像保存 3、图像处理入门基础 3.1 图像成像原理介绍 3.2 图像分类 3.2.1 二值图像 3.2.2灰度图像 3.2.3彩色图像(RGB) 4、像素处理操作 4.1 读取像素 4.2 修改像素

    2024年02月04日
    浏览(48)
  • 知识表示学习与计算机视觉:融合创新

    计算机视觉(Computer Vision)是人工智能领域的一个重要分支,涉及到计算机从图像和视频中自动抽取和理解信息的技术。随着大数据时代的到来,计算机视觉技术的发展受到了大量数据的驱动。然而,大数据带来的挑战也是显而易见的,如数据噪声、不均衡、缺失等。因此,

    2024年02月02日
    浏览(47)
  • 计算机视觉基础知识(八)--点云模型

    三维图像 一种特殊的信息表达形式; 特征是表达的空间中有三个维度的数据; 是对一类信息的统称; 信息的表现形式: 深度图:以灰度表达物体与相机的距离 几何模型:由cad软件建立 点云模型:所有逆向工程设备都将物体采样为点云 和二维图像相比; 三维图像借助第三

    2024年01月25日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包