OTA:目标检测中的最优传输分配

date
Jun 5, 2022
Last edited time
Sep 18, 2022 03:12 AM
status
Published
slug
OTA:目标检测中的最优传输分配
tags
DL
summary
type
Post
Field
Plat

1 前言

该论文主要是关于目标检测中的标签分配问题,作者创新性地从全局的角度重新审视了该问题,并提出将标签分配问题看成是一个最优运输问题。要知道最优传输问题是当前最优化理论和 GAN 理论研究领域中的一个很火的研究课题。论文的实验效果俱佳,而且作者还提供了相应的源码。

2 核心思想

在该论文中作者首先将目标检测的标签分配问题表述为一个最优运输问题,然后将求解最优传输问题转化为求解最优运输方案,进而可以利用现成的 Sinkhorn-Knopp 迭代快速高效地求解。

3 论文模型

3.1 最优传输理论介绍

最优传输理论可以被描述为如下供需关系的形式:假定在一个区域内有 个供应商和 个需求方。第 个供应商有 个单元的货物,第 个需求方需要 单元的货物。从供应商 到需求者 的单位货物的运输成本为 。最优传输问题的目标是找到一个最优传输方案使得供应商的所有货物可以以最低的运输成本运输给需求方:
以上问题是一个可以在多项式时间内求解的线性规划问题。在目标检测中,这个线性规划问题的规模很大,作者通过采用 Sinkhorn-Knopp 快速迭代法求解这个线性规划问题。

3.2 最优传输和 Sinkhorn 迭代

将 3.1 中的线性规划问题转换为如下的增加熵的正则化项的凸非线性形式:
其中 是控制正则化项强度的超参数。
 

注:
在笔记Optimal Transport distance中添加的正则项为 , 但这里为 , 这是为什么捏?
若仅使用熵作为正则项, 那么在求解最优分配 的时候, 得到的 , 而使用本文的正则项, 可以化简出现在指数上的 , 对参数进行了缩放. 因此, 这里的 中的 的定义与本文不太一致, 因此比较这个 的形式就好.
这里的 . 相当于在添加最大化熵 的同时, 最大化 . 而 为定值, 两者等效.

 
根据拉格朗日数乘法,则有如下形式:
其中 是拉格朗日乘子。通过使优化目标的导数等于 ,最优方案 被求解为:
,则有如下约束条件:
以上两个等式可以被同时满足,通过迭代如下公式求解
以上的迭代公式即为 Sinkhorn-Knopp 迭代。迭代 次之后,即可得到近似最优方案 :
其中 在实际中被设置为

3.3 最优传输理论中的标签分配

在目标检测中,假定有 个 gt 目标和 个锚框。给定一张图片 ,将每个 gt 看作是一个有正标签的 个单元的供应者( ),将每个锚框看成是一个需要一个标签单元的需求者( )。从供应者 到需求者 的一个正标签单元的最优传输损失 被定义为
其中 是模型的参数。 表示的是 的预测 分数和检测框。 表示的是 真实类别和 bbox。 表示的是交叉熵和 损失。 是平衡系数。
在训练过程中,除了正标签分配之外,大量的锚框被视为负样本。由于最优传输方案涉及所有锚框,作者引入另一个供应商(即背景),它只提供负面标签。在一个标准的最优传输问题中,总供给必须等于总需求。因此作者将背景可以提供的负标签数量设置为 。将一个单位的负标签从背景运输到 的成本被定义为:
其中, 表示的背景类。可以得到代价矩阵 。供给向量 可以被相应的更新为:
有了代价矩阵 ,成本向量 ,和需求向量 ,最优传输方案 可以通过 Sinkhorn-Knopp 迭代求解而得。得到 之后,可以通过将每个锚点分配给向其输送最大量标签的供应商来相应的进行标签分配。

3.4 方法改进

中心先验
理论上,OTA 可以将 gts 盒子区域内的任何锚点指定为正样本;对于像 COCO 这样的一般检测数据集,作者发现中心先验有利于 OTA 的训练。强制检测器聚焦在潜在的阳性区域 (即中心区域) 可以帮助稳定训练过程,尤其是在训练的早期阶段,这将导致更好的最终表现。因此,作者在成本矩阵之前加上一个中心。对于每个 gt,作者根据锚和 gts 之间的中心距离,从每个 FPN 水平选择最接近的 2 个锚。
动态 k 估计
一般情况下,每个 gt 的正锚框的数量适当。基于许多因素,如对象的大小、比例和遮挡条件等。由于很难直接建立从这些因素到正锚点数量的映射函数模型,作者提出了一种简单但有效的方法,根据预测边界框和锚点之间的 IoU 值,粗略估计每个锚点的正锚点数量。对于每个 gt,作者根据 IoU 值选择前 q 个预测。这些 IoU 值相加,代表估计正锚数。作者称这种方法为动态 k 估计。
如下图所示为最优传输分配的示意图,代价矩阵由每个锚 - gt 对之间的成对 cls 和 reg 损失组成。将寻找最优标签分配的目标转化为解决最优传输方案,然后通过 Sinkhorn-Knopp 迭代以最小的运输成本将标签从供应商运输到需求方。
notion image
最优传输分配算法(OTA)如下所示:
notion image

4.2 方法比较

notion image

4.3 CrowdHuman 数据集实验

如下表所示,RetinaNet 和 FCOS 分别只实现了 58.8% 和 55.0% 的 MR,远不如 fast R-CNN 这样的两级探测器,揭示了一级探测器在人群场景中的困境。从 FreeAnchor 开始,通过动态标签分配策略,一级检测器的性能逐渐得到改善。一个 TSS 达到 49.5% 的 MR,和 fast R-CNN(48.7% AP) 的性能非常接近。该论文的 OTA 通过将全局信息引入标签分配向前迈出了一步,将 MR 提高到 46.6%。OTA 的 AP 和召回也以明显的优势超过了其他现有的一级探测器。
notion image
 

© Lazurite 2021 - 2024