目标检测--边框回归损失函数SIoU原理详解及代码实现

这篇具有很好参考价值的文章主要介绍了目标检测--边框回归损失函数SIoU原理详解及代码实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. SIoU

1.1 原理

有关IoU损失函数，如(GIoU, DIoU, CIoU)没有考虑到真实框与预测框框之间的方向，导致收敛速度较慢，对此SIoU引入真实框和预测框之间的向量角度，重新定义相关损失函数，具体包含四个部分：
（1）角度损失(Angle cost)，定义如下
siou损失函数,目标检测,人工智能,目标检测,计算机视觉,python,深度学习
$\Lambda = 1-2*\sin^2(\arcsin(\frac{c_h}{\sigma}) - \frac{\pi}{4})=\cos(2*(\arcsin(\frac{c_h}{\sigma}) - \frac{\pi}{4}))$
其中 $c_h$ 为真实框和预测框中心点的高度差， $\sigma$ 为真实框和预测框中心点的距离，事实上 $\arcsin (\frac{c_h}{\sigma})$ 等于角度 $\alpha$
$\frac{c_h}{\sigma}=\sin(\alpha)$
$\sigma = \sqrt{(b_{c_x}^{gt}-b_{c_x})^2+(b_{c_y}^{gt}-b_{c_y})^2}$
$c_h = \max(b_{c_y}^{gt}, b_{c_y}) - \min(b_{c_y}^{gt}, b_{c_y})$

$b_{c_x}^{gt}, b_{c_y}^{gt})$ 为真实框中心坐标 $b_{c_x}, b_{c_y})$ 为预测框中心坐标，可以注意到当 $\alpha$ 为 $\frac{\pi}{2}$ 或0时，角度损失为0，在训练过程中若 $\alpha < \frac{\pi}{4}$ ，则最小化 $\alpha$ ，否则最小化 $\beta$

（2）距离损失(Distance cost)，定义如下：
siou损失函数,目标检测,人工智能,目标检测,计算机视觉,python,深度学习
$\Delta = \sum_{t=x,y}(1-e^{-\gamma\rho_t})=2-e^{-\gamma\rho_x}-e^{-\gamma\rho_y}$
其中：
$\rho_x = (\frac{b_{c_x}^{gt} - b_{c_x}}{c_w})^2, \quad \rho_y= (\frac{b_{c_y}^{gt} - b_{c_y}}{c_h})^2 \quad \gamma = 2 - \Lambda$
注意：这里的 $c_w, c_h)$ 为真实框和预测框最小外接矩形的宽和高

（3）形状损失(Shape cost)，定义如下：
$\Omega = \sum_{t=w, h}(1-e^{-w_t})^\theta=(1-e^{-w_w})^\theta+(1-e^{-w_h})^\theta$
其中：
$w_w=\frac{|w-w^{gt}|}{\max(w, w^{gt})}, \quad w_h=\frac{|h-h^{gt}|}{\max(h, h^{gt})}$
$(w, h)$ 和 $w^{gt}, h^{gt})$ 分别为预测框和真实框的宽和高， $\theta$ 控制对形状损失的关注程度，为了避免过于关注形状损失而降低对预测框的移动，作者使用遗传算法计算出 $\theta$ 接近4，因此作者定于 $\theta$ 参数范围为[2, 6]

（4）IoU损失(IoU cost)
siou损失函数,目标检测,人工智能,目标检测,计算机视觉,python,深度学习
$IoU=\frac{交集A}{并集B}$

综上所诉，最终SIoU损失函数定义如下：
$Loss_{SIoU}=1-IoU+\frac{\Delta + \Omega}{2}$

1.2 代码实现

有关SIoU得代码实现如下(来源美团yolov6)：文章来源地址https://www.toymoban.com/news/detail-800463.html

elif self.iou_type == 'siou':
	# SIoU Loss https://arxiv.org/pdf/2205.12740.pdf
	'''
	预测框和真实框坐标形式为xyxy，即左下右上角坐标或左上右下角坐标
	'''
	s_cw = (b2_x1 + b2_x2 - b1_x1 - b1_x2) * 0.5 #真实框和预测框中心点的宽度差
	s_ch = (b2_y1 + b2_y2 - b1_y1 - b1_y2) * 0.5 #真实框和预测框中心点的高度差
	sigma = torch.pow(s_cw ** 2 + s_ch ** 2, 0.5) #真实框和预测框中心点的距离
	sin_alpha_1 = torch.abs(s_cw) / sigma #真实框和预测框中心点的夹角β
	sin_alpha_2 = torch.abs(s_ch) / sigma #真实框和预测框中心点的夹角α
	threshold = pow(2, 0.5) / 2 #夹角阈值
	sin_alpha = torch.where(sin_alpha_1 > threshold, sin_alpha_2, sin_alpha_1) #α大于45°则考虑优化β，否则优化α
	angle_cost = torch.cos(torch.arcsin(sin_alpha) * 2 - math.pi / 2) #角度损失
	rho_x = (s_cw / cw) ** 2 
	rho_y = (s_ch / ch) ** 2
	gamma = angle_cost - 2
	distance_cost = 2 - torch.exp(gamma * rho_x) - torch.exp(gamma * rho_y) #距离损失
	omiga_w = torch.abs(w1 - w2) / torch.max(w1, w2)
	omiga_h = torch.abs(h1 - h2) / torch.max(h1, h2)
	shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4) #形状损失
	iou = iou - 0.5 * (distance_cost + shape_cost) #siou

loss = 1.0 - iou