目标检测的loss
date
May 22, 2022
Last edited time
May 22, 2022 06:42 AM
status
Published
slug
目标检测的loss
tags
DL
CV
summary
type
Post
Field
Plat
一、IOU(Intersection over Union)1. 特性 (优点)2. 作为损失函数会出现的问题 (缺点)二、GIOU(Generalized Intersection over Union)1. 来源2. 特性三、DIoU(Distance-IoU)1. 来源2. 优点3. 实现代码四、CIoU(Complete-IoU)实现代码五、L1 与 L2 Loss六、Smooth L1 Loss
一、IOU(Intersection over Union)
1. 特性 (优点)
IoU 就是我们所说的交并比,是目标检测中最常用的指标,在 anchor-based 的方法中,他的作用不仅用来确定正样本和负样本,还可以用来评价输出框(predict box)和 ground-truth 的距离。
- 能够反映预测检测框与真实检测框的检测效果。
- 尺度不变性,也就是对尺度不敏感(scale invariant), 在 regression 任务中,判断 predict box 和 gt 的距离最直接的指标就是 IoU。(满足非负性;同一性;对称性;三角不等性)
2. 作为损失函数会出现的问题 (缺点)
- 如果两个框没有相交,根据定义,,不能反映两者的距离大小(重合度)。同时因为 loss=0,没有梯度回传,无法进行学习训练。
- 无法精确的反映两者的重合度大小。如下图所示,三种情况 IoU 都相等,但看得出来他们的重合度是不一样的,左边的图回归的效果最好,右边的最差。
二、GIOU(Generalized Intersection over Union)
1. 来源
在 CVPR2019 中,论文《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》
的提出了 GIoU 的思想。由于 IoU 是比值的概念,对目标物体的 scale 是不敏感的。然而检测任务中的 BBox 的回归损失 (MSE loss, l1-smooth loss 等)优化和 IoU 优化不是完全等价的,而且 Ln 范数对物体的 scale 也比较敏感,IoU 无法直接优化没有重叠的部分。
这篇论文提出可以直接把 IoU 设为回归的 loss。
上面公式的意思是:先计算两个框的最小闭包区域面积 (通俗理解:同时包含了预测框和真实框的最小框的面积),再计算出 IoU,再计算闭包区域中不属于两个框的区域占闭包区域的比重,最后用 IoU 减去这个比重得到 GIoU。
2. 特性
- 与 IoU 相似,GIoU 也是一种距离度量,作为损失函数的话, , 满足损失函数的基本要求
- GIoU 具有尺度不变性。
- 对于 ,有 ,且 ,,则当 时,。
- IoU 取值 [0,1],但 GIoU 有对称区间,取值范围 [-1,1]。在两个框 和 无限重合的情况下,IoU=GIoU=1。在 和 不相交且距离无限远的情况下,GIoU=-1。
- 与 IoU 只关注重叠区域不同,GIoU 不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度。
三、DIoU(Distance-IoU)
1. 来源
DIoU 要比 GIou 更加符合目标框回归的机制,将目标与 anchor 中心点之间的距离,重叠率都考虑进去,使得目标框回归变得更加稳定,不会像 IoU 和 GIoU 一样出现训练过程中发散等问题。
- DIoU解决的问题
- 直接最小化预测框与目标框之间的归一化距离,以达到更快的收敛速度。
- 如何使回归在与目标框有重叠甚至包含时更准确、更快。
其中,, 分别代表了预测框和真实框的中心点,且 代表的是计算两个中心点间的欧式距离。 代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。
2. 优点
- 与 GIoU loss 类似,DIoU loss( )在与目标框不重叠时,仍然可以为边界框提供移动方向。
- DIoU loss 可以直接最小化两个目标框的距离,因此比 GIoU loss 收敛快得多。
- 对于包含两个框在水平方向和垂直方向上这种情况,DIoU 损失可以使回归非常快,而 GIoU 损失几乎退化为 IoU 损失。
- DIoU 还可以替换普通的 IoU 评价策略,应用于 NMS 中,使得 NMS 得到的结果更加合理和有效。
- 当两个框完全重合时,,当两个框不相交时,。
3. 实现代码
四、CIoU(Complete-IoU)
论文考虑到 bbox 回归三要素中的长宽比还没被考虑到计算中,因此,进一步在 DIoU 的基础上提出了 CIoU。其惩罚项如下面公式:
其中 是权重函数,其定义为:
而 用来度量长宽比的相似性,定义为:
完整的 CIoU 损失函数定义:
最后,CIoU loss 的梯度类似于 DIoU loss,但还要考虑 的梯度。在长宽在 的情况下, 的值通常很小,会导致梯度爆炸,因此在 实现时将替换成 1。
实现代码
五、L1 与 L2 Loss
- L1 Loss
- L2 Loss
六、Smooth L1 Loss
从损失函数对x的导数可知: 损失函数对 的导数为常数,在训练后期, 很小时,如果learning rate 不变,损失函数会在稳定值附近波动,很难收敛到更高的精度。
损失函数对x的导数在 值很大时,其导数也非常大,在训练初期不稳定。 完美的避开了 和 损失的缺点。
- 在目标检测任务中的缺点
- 上面的三种Loss用于计算目标检测的Bounding Box Loss时,独立的求出4个点的Loss,然后进行相加得到最终的Bounding Box Loss,这种做法的假设是4个点是相互独立的,实际是有一定相关性的。
在目标检测任务的时候,分别计算 的 loss,即下面的形式:
代表 GT 的坐标框, 表示预测坐标框。
- 实际评价框检测的指标是使用IOU,这两者是不等价的,多个检测框可能有相同大小的 Loss,但IOU可能差异很大,为了解决这个问题就引入了IOU LOSS。